ROBOTS爬虫协议规则

时间:2019-05-19 08:18 作者:聊城音速网络公司 点击:

一、了解robots
1、什么是robots
网站和搜索引擎的协议文件,可以通过robots文件告诉搜索引擎哪些文件可以抓取,哪些文件不能抓取。

ROBOTS爬虫协议规则
 
2、为什么要做robots
2.1、保护网站隐私信息,防止信息泄露
2.2、屏蔽垃圾页面和重复页面
2.2.1、低质量页面
2.2.2、做了伪静态,屏蔽动态链接
2.2.3、屏蔽死链

ROBOTS爬虫协议规则
 
二、robots语法规则
1、User-agent:描述哪个搜索引擎会受到该协议的限制
 
2、搜索引擎蜘蛛
2.1、Baiduspider 百度蜘蛛
2.2、Googlebot 谷歌机器人
2.3、Sosospider 搜狗蜘蛛
2.4、360 spider 360蜘蛛
我们就列举国内比较常见的蜘蛛。
 
3、Disallow:禁止抓取
4、Allow:允许抓取
5、*:通配符
6、$:终止符
 
7、注意
7.1、英文状态下的符合
7.2、冒号后有空格
7.3、首字母要大写
7.4、/代表根目录
 
三、常见写法
1、屏蔽整站不被蜘蛛抓取
例如屏蔽百度蜘蛛
User-agent: Baiduspider
Disallow: /
 
2、不允许所有蜘蛛抓取
User-agent: *
Disallow: /
 
3、不让蜘蛛抓取某个文件里的内容
User-agent: *
Disallow: /xx
 
4、不让蜘蛛抓取某个文件,但是可以抓取这个文件里的某个文件
User-agent: *
Disallow: /xx
Allow: /xx/xxx
 
5、屏蔽js和css
User-agent: *
Disallow: /*.js$
Disallow: /*.css$
 
6、动态路径
User-agent: *
Disallow: /*?*
 
四、提交与检测robots
写好robots后,将robots.txt上传到根目录中,然后登陆百度搜索资源平台,右侧有robots,点击检测并更新就可以了。

ROBOTS爬虫协议规则

转载请注明出处
聊城建站 > SEO优化 > ROBOTS爬虫协议规则