谷歌意外泄露内部文档,被指欺骗SEO行业多年

近日,由于谷歌内部机器人“误操作”,一批描述谷歌如何对网页排名的内部文档在线泄露。由于这些文档披露的搜索排名机制与谷歌公开发布的规则并不完全一致,一些知名SEO专家指责谷歌欺骗了整个行业多年。

同时,也有安全专家认为“真实版”谷歌搜索排名机制文档的泄露对黑帽SEO来说也是一次不可多得的“盛宴”。

机密文档被“开源”

泄露文档描述了谷歌内容仓库API的旧版本,披露了谷歌搜索内部运作的幕后(真实)细节。

据悉,这些材料于3月13日左右由谷歌自己的自动化工具无意中提交到一个可公开访问的谷歌GitHub存储库(链接在文末)。该自动化工具在提交时附上了Apache2.0开源许可证,这是谷歌公共文档的标准做法。5月7日的一次后续提交试图撤回这一泄露。

这些文档被搜索引擎优化(SEO)公司EA Digital Eagle的首席执行官Erfan Azimi发现,并于上周日由其他SEO从业者——SparkToro的首席执行官Rand Fishkin和iPullRank的首席执行官Michael King披露。

从技术上讲,由于谷歌是在Apache2.0许可下发布的文档,这意味着任何偶然发现这些文档的人都获得了“永久、全球、非独占、免费、免版税、不可撤销的版权许可”,因此这些文档现在可以在线免费获取(链接在文末)。

泄露文档样本

欺骗SEO行业多年

这些泄露文档不包含代码,主要描述了如何使用谷歌内容仓库API(GoogleApi.ContentWarehouse,可能仅供内部使用);泄露的文档包括大量对内部系统和项目的引用。虽然谷歌云API中有一个同名的公共API,但GitHub上泄露的内容显然超出了这个范围。

这些文件揭示了谷歌在网页相关性排名中优先考虑的因素(与公开规则有出入),这也是SEO行业和网站运营者们长期关注的问题。

这批超过2500页的文档详细描述了与API相关的14000多个属性,但由于这些属性是否被使用,以及是否重要的信息很少。因此,很难辨别谷歌在其搜索结果排名算法中给这些属性分配的权重。

但上述SEO专家认为,泄露文档包含了大量颇具价值的细节,因为它们与谷歌多年来的公开声明并不完全一致,甚至是矛盾的。

“这些细节与谷歌多年来的公开声明相矛盾,例如谷歌一再公开(撒谎)否认使用以点击为中心的用户信号,否认在排名中单独考虑子域名,否认对新网站进行沙盒处理,否认收集或考虑域名年龄等。”SparkToro的Fishkin在一份报告中解释道。

iPullRank首席执行官King在文章中提到了谷歌搜索顾问John Mueller的一段视频声明,后者称“谷歌没有类似网站权威评分的东西”——即否认谷歌会评级网站的权威性,并在搜索结果中给与更高排名。

但King指出,泄露文档包含“siteAuthority”站点权威评分。

一个关键的关注点是点击的重要性——不同类型的点击(好点击、坏点击、长时间点击等)在确定网页排名中的作用。在美国政府对谷歌的反垄断审判中,谷歌承认点击指标是网页搜索排名的一个因素。

另一个发现是谷歌使用Chrome浏览器中浏览的网站作为质量信号,在API中显示为参数ChromeInTotal。“与页面质量评分相关的一个模块包含来自Chrome浏览器的站点级视图衡量标准,”King解释道。

此外,文件还显示谷歌考虑了其他因素,如内容新鲜度、作者身份、页面是否与网站的核心内容相关、页面标题与内容的一致性以及文档正文中术语的平均加权字体大小。

这些泄露的文档不仅揭示了谷歌搜索排名的复杂机制,还暴露了谷歌内部机制与公开声明的表里不一。这些信息对SEO行业和网站运营者来说无疑是宝贵的洞见,当然,对于黑帽SEO来说更是如此。

参考链接:

  • https://www.theregister.com/2024/05/29/internal_google_search_documents/
  • https://github.com/googleapis/elixir-google-api/commit/d7a637f4391b2174a2cf43ee11e6577a204a161e
  • https://ipullrank.com/google-algo-leak
  • https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/

前一篇5.6亿条记录?票务巨头Ticketmaster确认发生大规模数据泄露
后一篇入侵与攻击模拟(BAS)市场趋势与选购指南