seo教程:robots文件的写法与注意细节

robots文件是我们seo教程中必学的一个知识点,作为一名seoer必须掌握robots文件的作用、书写等知识,今天跃飞seo就给大家梳理一下robots文件的写法与注意细节等知识点。

一、什么是robots文件
robots.txt文件(也称为爬虫协议、机器人协议等)是专门给搜索引擎的蜘蛛机器人看的,搜索引擎蜘蛛抓取的第一个文件就是robots文件。robots是站点与spider重要的沟通渠道,通过这个文件,蜘蛛可以了解到网站那些内容可以抓取,那些页面不可以抓取,当然,我们也能直接屏蔽掉蜘蛛的访问。对于seo人员来说,我们可以通过书写robots协议来限制蜘蛛抓取某些不参与排名或不利于排名的文件,不仅可以保护文件隐私更能减少蜘蛛爬取造成的服务器压力。

二、robots文件的书写方法
robots文件的书写很简单,大家学习seo教程时,只要记住3个词和2个符号就好,3个词是User-Agent,Allow,Disallow,2个符号是*,$

1、User-Agent的用法
含义:定义搜索引擎蜘蛛,常见的蜘蛛有,百度蜘蛛(Baiduspider),谷歌蜘蛛(Googlebot),360蜘蛛(360spider),搜狗蜘蛛(sougouspider)等,*代表所有蜘蛛
用法:User-Agent: 搜索引擎蜘蛛名 
比如:User-Agent: Baiduspider,定义百度蜘蛛,然后再用下面的Allow,Disallow来限制百度蜘蛛可以爬取什么和不能爬取什么
User-Agent: *,定义所有蜘蛛,就是所有搜索引擎蜘蛛都要遵循下面的规则来爬取文件

2、Allow的用法
含义:允许搜索引擎蜘蛛爬行的URL路径
用法:Allow: /文件名
比如:Allow: /seo,表示允许搜索引擎蜘蛛爬取seo目录

3、Disallow的用法
含义:不允许搜索引擎蜘蛛抓取的URL路径。
用法:Disallow: /文件名
比如:Disallow: /seo,表示不允许搜索引擎蜘蛛爬取seo目录

4、通配符*
含义:代表任意多个字符
用法:Disallow: /*.jpg 网站所有的jpg文件被禁止了。
Disallow: /*?* 网站所有动态路径都被禁止了。

5、结束符$
含义:表示以前面字符结束的url。
用法:Disallow: /.asp$ 网站所有以.asp结尾的文件被禁止。

三、书写robots文件的注意细节

1、特别提醒,在robots.txt中,所有语法的:冒号后面必有一个空格。

2、在“/robots.txt”文件中,允许收录优先级要高于禁止收录,如

User-agent: *
 
Allow: /a/b.html
 
Disallow: /a/
 
则a目录下b.html可以让蜘蛛爬取访问,a目录下的其他文件都禁止蜘蛛访问
 
3、重点细节:robots.txt中屏蔽的文件目录后面带/斜杠与不带/斜杠的区别 :
 
比如:
 
robots.txt部分:
 
User-Agent: *
 
Disallow: /seo
 
Disallow: /seo/
 
这两种书写,一个是目录名后面不带/斜杠,另一个是带/斜杠的。
 
根据robots.txt写法规范,解释如下:
 
1、不带/斜杠的意思是:屏蔽seo这个名字开头的所有目录。如:/seo1、/seo2、或者/seo/以下的所有目录都是被屏蔽的。
 
2、带/斜杠的意思是:屏蔽/seo/这个目录下的全部内容。如:/seo/abc、/seo/123/或者是/seo/abc/123等,/seo/下的目录都是被屏蔽的。但是它并不屏蔽本目录的内容,如:/seo还是允许蜘蛛抓取的。

以上就是robots文件的写法与注意细节,你学会了吗?更多seo教程请关注跃飞seo博客
 

本文链接:http://www.945seo.com/seo/57.html

内容版权声明:文章为跃飞seo原创文章,转载请注明来源。文章部分图片及内容来源于网络,如有侵权,请及时联系我们删除