首先,我们需要回顾 2010 年 Caffeine 基础架构更新的推出。当时我们并不知道,Caffeine 是 Panda 和 Penguin 的前身。正是 Caffeine 让 Panda 和 Penguin 得以诞生。
Caffeine 使 Google 能够以前所未有的速度更新其索引,并独立于图表的其余部分更新网络链接图表部分页面的 PageRank。以前,您必须同时重新计算网络上所有页面的 PageRank;您无法只计算一个网页的 PageRank。我们相信,有了 Caffeine,这种情况发生了改变,他们可以非常准确地估算网络部分页面(子图表)的更新 PageRank,以考虑新的(或删除的)链接。
这意味着“实时索引”会不断更新,而不是定期更新。
那么,这与机器学习有什么关系?它又为 Panda 和 Penguin 奠定了基础吗?让我们把它们放在一起……
熊猫和企鹅
Caffeine 使得 Google 能够极其快速地更新 PageRank,速度比以前快得多,这很可能是让他们最终大规模应用机器学习作为算法主要部分的一步。
Panda 着手解决的问题与确定西瓜是否成熟的问题非常相似。任何阅读这篇博文的人都可以快速浏览一个网页,并且在大多数情况下都能准确地告诉我该网页的垃圾程度。但是,很少有人能为我写出一份确切的规则列表,以判断您尚未查看的网页的这一特征(“如果有超过 x 个链接,并且有 y 个广告占据了屏幕首屏的 z%...”)。您可以给出一些广泛的规则,但没有哪条规则对所有重要的网页都有效。还要考虑一下,如果您(或 Google)可以构建这样一份严格的规则列表,那么规避这些规则将变得更加容易。