Google开始扫描RSS/Atom feeds以获取实时的新生内容
Google Webmaster Central一篇博文称,Google正在通过自动扫描RSS和Atom feeds的方法发现网站。这个新过程可以帮助Google更加迅速地发现网页,并让用户找到最新的搜索结果。虽然谈不上“即时”,但通过feeds发现 网站要比Google现在使用的爬虫方法更快。Google可能很快会采用PubSubHubbub即时协议等机制来识别最近更新的网页。
对于那些支持feed的网站,这篇文章没有提到Google是否会用RSS和Atom搜索代替传统的爬虫搜索,但只要有机会,Google很可能会采用。
尽管只是一带而过,Google暗示他们可能会考虑PubSubHubbub等机制。该开放协议可以提供近乎即时的更新通知。显然Google已经明白即时网络才是未来。
Twitter和其它社交网站的速度对即时网络产生了巨大的影响,用户越来越想得到更新鲜的信息,这种需求又催生了PubSubHubbub和 RSSCloud等即时协议。一旦Google开始通过这些技术扫描网页,他们的搜索结果不仅是快速更新,而是可以实现即时更新。也就是说,信息在发布到 网上的瞬间就可以被用户搜到。
当然这又会给搜索引擎带来一系列新的问题,比如如何对即时搜索结果进行排名。Google的搜索算法都是建立 在 PageRank基础上的,通过来自相关网站的链接对网站进行排名, 而最新更新的网页几乎没有相关链接。但是,Google已经开始着手解决这个问题了,现在PageRank算法已经进行了改进,会奖励那些内容更新、更匹 配的网站。如果说有人可以把即时内容和静态网页混合在一起,进行合理地排名,那么非Google莫属。实际上,Google上周刚宣布在自己的搜索结果中 加入来自Twitter的内容。
真正的即时搜索结果尚未到来。不过,加速后的搜索结果同样让我们感到满足。该文章建议阻止Googlebot(Google的搜索机器人软件)爬 虫 收录网站RSS/Atom feeds的站长们通过robots.txt文件解除爬虫限制。如果站长不确定有没有封锁googlebot,可以通过Google站长工具里的 robots.txt测试器来检查自己的网站feeds。