一,robots的概念

搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容,robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站(比如http://www.abc.com)时,首先会检查该网站中是否存在robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

二,robots.txt语法教程

1. 允许所有SE收录本站:robots.txt为空就可以,什么都不要写。


  2. 禁止所有SE收录网站的某些目录:
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/
      3. 禁止某个SE收录本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
       4. 禁止所有SE收录本站:
User-agent: *

Disallow: /
       5. 加入sitemap.xml路径,例如:
Sitemap: http://www.dggate.com/sitemap.xml
      名称 搜索引擎
Baiduspider http://www.baidu.com
Googlebot http://www.google.com
MSNBOT http://search.msn.com
ia_archiver http://www.alexa.com

推荐大家一个在线制作robots.txt的工具

http://www.clickability.co.uk/robotstxt.html


最后需要注意,robots.txt文件名必须是小写,而且放在网站根目录,比如:http://www.seohy.com/robots.txt

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

 

首先要创建一个robots.txt文本文件,放置网站的根目录下,下面就开始编辑设置Robots协议文件:
 
一、允许所有搜索引擎蜘蛛抓取所以目录文件,如果文件无内容,也表示允许所有的蜘蛛访问,设置代码如下:
 
User-agent: *
Disallow:
 
或者
 
User-agent: *
Allow: /
 
二、禁止某个搜索引擎蜘蛛抓取目录文件,设置代码如下:
 
User-agent: Msnbot
Disallow: /
 
例如想禁止MSN的蜘蛛抓取就设为,Msnbot代表MSN的蜘蛛,如果想禁止其他搜索引擎就更换蜘蛛名字即可,其他蜘蛛名字如下:
百度的蜘蛛:baiduspider
Google的蜘蛛: Googlebot
腾讯Soso:Sosospider
Yahoo的蜘蛛:Yahoo Slurp
Msn的蜘蛛:Msnbot
Altavista的蜘蛛:Scooter
Lycos的蜘蛛: Lycos_Spider_(T-Rex)
 
三、禁止某个目录被搜索引擎蜘蛛抓取,设置代码如下:
User-agent: *
Disallow: /目录名字1/
Disallow: /目录名字2/
                                                                                                            
Disallow: /目录名字3/
 
把目录名字改为你想要禁止的目录即可禁止搜索引擎蜘蛛抓取,目录名字未写表示可以被搜索引擎抓取。
 
 
四、禁止某个目录被某个搜索引擎蜘蛛抓取,设置代码如下:
 
User-agent: 搜索引擎蜘蛛名字
    
说明(上面有说明蜘蛛的名字)
Disallow: /目录名字/
             
说明(这里设定禁止蜘蛛抓取的目录名称)
 
例如,想禁目Msn蜘蛛抓取admin文件夹,可以设代码如下:
User-agent: Msnbot
Disallow: /admin/
 
五、设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,设置代码如下:
 
User-agent: *
Disallow: /*.htm
 
说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有“htm”为后缀的文件)
 
六、充许所有搜索引擎蜘蛛访问以某个扩展名为后缀的网页地址被抓取,设置代码如下:
 
User-agent: *
Allow: .htm$  说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有“htm”为后缀的文件)
 
 
七、只充许某个搜索引擎蜘蛛抓取目录文件,设置代码如下:
 
User-agent: 搜索引擎蜘蛛名字
    
说明(上面有说明蜘蛛的名字)
Disallow: