如何屏蔽搜索引擎抓取某个页面

在我们做seo优化的时候,需要屏蔽搜索引擎蜘蛛抓取不必要的页面,以免分散权重,比如联系方式,或者搜索结果页。屏蔽搜索结果页面,也可以防止其他人恶意用我们的网站做外链,同时避免造成我们被搜索引擎算法(绿萝算法)打击,之前有写过百度绿萝算法介绍,不知道的朋友可以点进去看一下。

一、Robots
学过seo教程的都知道,这个Robots用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。

遵循语法的Robots.txt才可能被机器人识别,至于语法,介绍起来很繁琐,现简单举例如下:
 
1)禁止所有搜索引擎访问网站的任何部分(也就是网站彻底的拒绝所有搜索引擎收录)
 
User-agent: * 
 
Disallow: /
 
2)允许所有的robot访问(也就是网站允许所有搜索引擎收录)
 
User-agent: * 
 
Disallow:
 
3)禁止某个搜索引擎的访问(比如禁止百度收录,按如下的方式写)
 
User-agent: baiduspider 
 
Disallow: /
 
4)允许某个搜索引擎的访问(比如允许百度收录,按如下的方式写)
 
User-agent: baiduspider
 
Disallow: 
 
User-agent: * 
 
Disallow: /
 
5)禁止搜索引擎访问某些目录 
 
User-agent: *
 
Disallow: /cgi-bin/
 
Disallow: /tmp/
 
Disallow: /images/

二、利用MATE标签
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
 
在这里,META NAME="ROBOTS"是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎,例如META NAME="Googlebot"、META NAME="Baiduspide"等。content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。
 
INDEX命令:告诉搜索引擎抓取这个页面
 
FOLLOW命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。
 
NOINDEX命令:告诉搜索引擎不允许抓取这个页面
 
NOFOLLOW命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
 
根据以上的命令,我们就有了一下的四种组合
 
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接
 
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接
 
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接
 
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接。
 
这里需要注意的是,不可把两个对立的反义词写到一起,例如
 
<META NAME="ROBOTS" CONTENT="INDEX,NOINDEX">
 
或者直接同时写上两句
 
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
 
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
 

本文链接:http://www.945seo.com/seo/20.html

内容版权声明:文章为跃飞seo原创文章,转载请注明来源。文章部分图片及内容来源于网络,如有侵权,请及时联系我们删除