返回列表 回复 发帖

禁止百度Baiduspider抓取静态存档页面的robots设置

经过对汽车修理厂管理这个站点的测试,百度的蜘蛛,Baiduspider先生不支持noindex元标签,所以前文:"Discuz!论坛静态化网址的网站地图sitemap解决方案"所说的方案针对百度来说不可行.需要另写robots.txt文件来结合使用.

经过google网站管理员工具的测试,和参考百度的Baiduspider说明,如果要针对百度先生禁止抓取静态存档页面需要像下面这样设置robots.txt文件:

User-agent: *
Allow: /archiver
Allow: /

User-agent: Baiduspider
Disallow: /archiver/tid*
Allow: /archiver
Allow: /

上面这个robots设置意思是允许所有搜索引擎抓取archiver目录下所有文件,但是针对百度,不允许百度抓取archiver目录下的tid开头的所有网页.

经过测试,google支持“Disallow: /archiver/tid-”这样的标示,表示tid-开头的网页不抓取,但是百度的说明例子中没有这一类说明,但是明确说明了*星号的通配符作用是支持的。

robots设置的问题,允许全部搜索引擎,但是又禁止某个搜索引擎这种情况,要先写允许全部搜索引擎的条件,然后再写禁止的搜索引擎的条件,禁止的部分说明需要把它们相通的那部分再重复一遍。比如上面的例子Allow: /archiver就重复写一次。

存档目录有一个规律,tid开头的的就是帖子的静态存档网页.因为archiver目录下还有栏目的目录,比如常见问题目录http://bbs.xiuli123.com/archiver/fid-5.html,这是要允许抓取的.栏目的目录中有指向我们希望搜索引擎抓取的静态网址,这样的网站导航仍然是可行的.

相关文章:
百度确实不支持noindex元标签,及精确匹配的问题
Discuz!论坛静态化网址的网站地图sitemap解决方案
首佳管理软件论坛搜索引擎优化更新说明
返回列表 回复 发帖