Feed on
Posts
Comments

有些人可能疑问,我的站点禁止所有蜘蛛访问抓取网页,为什么在搜索引擎结果中依然可以找到,并且关键词就是站点标题,今天艾瑞就来带大家分析下.

首先,所有的搜索引擎都支持robots.txt,甚至是我们伟大的百度,低估他了。也就是蜘蛛是不会违背抓取原则的,那为什么依然可以在搜索结果中找到禁止抓取的网页呢?

有些时候,我们可能看到禁止抓取的网页在搜索结果中的描述是空的,或者根本就不是网页中实际的描述,而是其他网站对其描述、评价的.其实这就是问题的答案.

因为很多时候禁止搜索引擎抓取的网站都是比较权威的网站,之前在搜索引擎中的权重极其之高,当然禁止蜘蛛抓取后,外部链接依然不受到影响。如此权威的网站不出现在搜索结果中,实为憾事,这些搜索引擎的初衷何以呈现,何以给用户最佳搜索体验.

然而,做事不能没有规则,你不让我抓取,我就不抓取,但我可以收录你,描述可取其他权威站点对其之描述,比如DOMZ、维基百科等.

在Google中的出现的案例目前还是没有找到,不过淘宝禁止百度的那点事,我还是记忆犹新.现在我们以淘宝禁止百度抓取为例来分析问题.

  • 1.首先看看robots.txt内容,不过多说什么

http://www.taobao.com/robots.txt

http://my.taobao.com/robots.txt

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /
  • 2.可以看到www.taobao.com收录并且有描述的,但没有快照.

值得注意的是,此描述非www.taobao.com本站之描述,而是其他权威站点对其之描述.

<meta name="description" content="淘宝网 – 亚洲最大、最安全的网上交易平台,提供各类服饰、美容、家居、数码、话费/点卡充值… 2亿优质特价商品,同时提供担保交易(先收货后付款)、先行赔付、假一赔三、七天无理由退换货、数码免费维修等安全交易保障服务,让你全面安心享受网上购物乐趣!" />淘宝网首页出现在百度搜索结果中

 淘宝首页的百度快照

  • 3.大家看到my.taobao.com有收录,但是无描述

从Google搜索 my.taobao.com 获得大约 510,000 条查询结果,并且从搜索结果页面显示有很多url指向my.taobao.com

值得注意的是由于访问my.taobao.com需要登录的权限,所以一般未登录用户值得返回到登陆页面.

无描述的原因是这个二级域名没有其他权威网站对其简要描述. my.taobao.com-archive

  • 4.如果有Google方面的案例,欢迎提供分析

One Response to “为什么robots.txt禁止抓取却依然被收录”

  1. [...] Excerpt from: 为什么robots.txt禁止抓取却依然被收录 [...]

Leave a Reply