网站蜘蛛抓取规则robots.txt写法

2018.12.19 17:01 阅读 266 评论 0

网站根目录下的robots.txt可以限制搜索引擎蜘蛛对网站的爬行,允许或禁止蜘蛛爬行某些页面,利于网站的seo。当蜘蛛爬行一个网站抓取数据时,首先会检查该网站根目录下的robots.txt文件,如果存在该文件,就会遵循robots.txt的规则去爬行网站。

robots.txt写法规则

注:robots.txt区分大小写,如kkfor.htmlKKFOR.html会被识别为不同的文件。

示例

User-agent: Baiduspider
Disallow: /

这是拒绝百度蜘蛛访问的写法。

User-agent

User-agent表示搜索引擎蜘蛛的名字,书写robots.txt必须有User-agent

User-agent:*表示所有的搜索引擎蜘蛛,User-agent:Baiduapider表示百度spider

Disallow

Disallow表示不允许访问

Disallow:

不允许访问为空,表示允许访问任何目录

Disallow: /

表示不允许访问任何目录,注:在/前有一个空格

Allow

Allow表示允许访问,意思和用法与Disallow相反

具体用法

  1. 允许所有蜘蛛访问所有目录
User-Agent: *
Allow: /
  1. 禁止所有蜘蛛访问
User-Agent: *
Disallow: /
  1. 允许所有蜘蛛访问某个目录
User-Agent: *
Allow: /php/
  1. 禁止蜘蛛访问某几个目录
User-Agent: *
Disallow: /js/
Disallow: /admin/
0 条评论
发布