Feed on
Posts
Comments

你是否遇到明明你用robots.txt禁止spider抓取,但结果search engine 还是会收录禁止抓取的网页。这时候你有必要检查下robots.txt文件格式是否正确.

大家都知道robots.txt文件是文本格式,但是如果你保存的时候添加了BOM标记,那很遗憾,Search Engine 无法识别这个山寨版的robots.txt文件.

以下给大家提供张含有BOM标记的Robots.txt文件的截图.

robots.txt-bom

在Google管理员工具中已经提示这个robots.txt文件存在错误

?User-agent: * 、语法错误、未指定 user-agent等.

很明显Google Spider是无法识别带BOM标记的robots.txt.

robots.txt-bom-01

 

另外如果你测试这个robots.txt效果时,你会发现他根本没有起到任何作用.

通过上图我们可以知道/404.asp在robots.txt第三行中已经禁止Spider访问,但是通过下图我们可以看到这个允许的.

robots.txt-bom-2

所以我们得出这次试验结论:Search engine Spider 无法识别带有BOM标记的robots.txt.

原创文章,转载请注明: 转载自艾瑞

本文链接地址: 检查你的Robots.txt文件格式是否正确

Leave a Reply