2008-05-31

我所观察到的一次Google Dance现象

Posted in 随笔, 实验室, Web Data Management at 23:59 Author:仲远

标签:

虽然大家每日使用Google,看起来没有什么不同,使用起来也没有什么不同。但是其实Google是经常调整她的算法的,据称Google去年一年就调整过450次搜索算法。通过算法一次次的调整,Google不断改进用户体验,同时提供搜索结果的质量。

其中,这个算法的调整,可能伴着Google Dance现象的发生。所谓的Google Dance,就是Google每个月固定调整她的索引库(当然是指她的BigTable),将一些新索引库的数据调整到主索引库中。这个现象常常发生在每个月的下旬,也就是每月20~30号之间。当然,这些说法全都是网上的流传。也许是前几年的Google索引方法,不代表是现在的Google索引方法。

根据我的观察,一般一个优秀的网站(主要还是指pagerank值比较高的,更新比较频繁的网站),Google的爬虫会经常进行爬取更新,而网站上的新页面有可能在同一天内或第二天就出现Google的搜索结果中。但是之后这个页面有可能又会突然消失得无影无踪,但是过几天又会重新出现在搜索结果中。我认为这个现象就是Google在Dance,很有可能就是将新索引库中的索引数据更新到主索引库中。这个新页面在Google中消失的时间不一定相同,跟网站的评级或许会有些关系。

同时,我观察到这个现象的发生,并不一定只出现在每个月的下旬。当然,似乎每个月的下旬这种现象尤其活跃。

以下是我观察到的一个例子:最近写了一篇文章,其中一个关键字第二天就出现在Google首页中。但是三四天后,这个关键字的页面突然消失的无影无踪,无论怎样的关键字都无法找到。这个消失持续了整整一天时间。之后就完全恢复正常。这个现象发生在5月30日,这或许就是Google Dance吧。

当然,在上篇文章提到的新网站在断电后从Google中消失,到现在还无法断定究竟是Google Dance还是由于网站一段时间无法访问造成的。最要命的是,我发现Google已经2天多完全没有对那个新网站进行任何爬取了。

本文可以自由转载,转载时请保留全文并注明出处。作者:仲子
原文链接:http://www.wangzhongyuan.com/archives/382.html 

本文可以自由转载,转载时请保留全文并注明出处:
转载自仲子说 [ http://www.wangzhongyuan.com/ ]
原文链接:

Leave a Comment

*
To prove you're a person (not a spam script), type the security text shown in the picture. Click here to regenerate some new text.
Click to hear an audio file of the anti-spam word