为什么robots.txt 禁止抓取的页面还会出现在Google 搜索结果中

发表于： 10月 8, 2009 10月 8, 2009
分类：网络赚钱
标签： WordPress

Matt Cutts 在最近的Google Webmaster视频提到，很多站长抱怨Google的搜索引擎对他们的robots.txt文件视而不见，他们不想让有些网页被Google索引到，但是他们还是发现这些网页url还是出现在了Google的搜索结果里面。

Matt说，robots.txt告诉搜索搜索引擎别抓这个页面，Google也确实遵守约定不抓这个页面，这也是你在搜索结果该链接下面看不到摘要片段的原因。

那为什么这些页面还会出现在Google的搜索结果里面呢？Matt举例子说，搜索California DMV，会指向www.dmv.ca.gov这个网站，尽管这个站点屏蔽了所有的搜索引擎，但是Google还是给出了这个站点的链接，原因在于像纽约时报，eBay之类的站点在链接到这个站的时候都会在锚点加上说明文字”California DMV”，这就帮助Google不用抓取这个站点的页面也能返回到这个站的链接。

Matt 另外提到，他们还可以通过Open Directory Project(DMOZ)这样的网站得到url的信息，比如Metallica.com这个站也在robots.txt中禁止Google抓取页面，但是Google从Open Directory Project中就能获取Metallica.com的描述信息显示在搜索结果的摘要片段里面。

当这种情况发生的时候，好像是Google没有遵守robots.txt的约定，但是实际上不是的，matt说Google不会冒犯robots.txt的约定，不抓取页面也能返回对用户有帮助的信息

admin

2489

发表评论

为什么robots.txt 禁止抓取的页面还会出现在Google 搜索结果中

admin

1 对 “为什么robots.txt 禁止抓取的页面还会出现在Google 搜索结果中”的想法；

发表评论取消回复

admin

1 对 “为什么robots.txt 禁止抓取的页面还会出现在Google 搜索结果中”的想法；

发表评论 取消回复

发表评论取消回复