robots.txt文本介绍和搜索引擎蜘蛛详解

robots.txt 放置位置

　　robots.txt文件应该放置在网站根目录下。举例来说，当spider访问一个网站(比如https://www.65fly.com)时，首先会检查该网站中是否存在http://www.ziyuan1996.top/robots.txt这个文件，如果 Spider找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

　　写robots注意事项

　　1、robots.txt 所有字母必须是小写，必须放到网站根目录

　　2、User-agent：* 表示定义所有蜘蛛，User-agent：Baiduspider表示定义百度蜘蛛。这里要注意*前面有个空格，否则不生效;

　　3、禁止与允许访问

　　Disallow: /表示禁止访问，Allow: /表示允许访问。在写robots.txt时需特别注意的是，/前面有一个英文状态下的空格(必须是英文状态下的空格)。

　　4、禁止访问网站中的动态页面

　　Disallow: /?

　　5、禁止搜索引擎访问文件夹中的某一类文件

　　Disallow: /a/*.js

　　6、禁止搜索引擎访问文件夹中的某一类目录和文件

　　Disallow: /a/ps*

　　7、禁止访问admin后台，防止后台泄露

　　Disallow: /adm*

　　8、使用”*”和”$”：

　　Baiduspider 支持使用通配符””和””来模糊匹配url。“”来模糊匹配url。“” 匹配行结束符。 “” 匹配0或多个任意字符。

　　例如允许收录所有.html的页面，Allow: .html$

　　9、使用robots.txt提交站点地图

　　Sitemap: https://www.XXXXXXXX.com/sitemap.xml 必须是全部路径;前面有个英文空格别忘记了!

　　10、使用百度站长工具检查robots.txt是否有错误;

　　特别注意事项

　　在写robots.txt文件时语法一定要用对，User-agent、Disallow、Allow、Sitemap这些词都必须是第一个字母大写，后面的字母小写，而且在:后面必须带一个英文字符下的空格。

　　网站上线之前切记写robots.txt文件禁止蜘蛛访问网站，如果不会写就先了解清楚写法之后再写，以免给网站收录带来不必要的麻烦。　robots.txt文件用法举例：

　　1. 允许所有的robot访问

　　User-agent: * Allow: / 或者 User-agent: * Disallow:

　　2. 禁止所有搜索引擎访问网站的任何部分

　　User-agent: *

　　Disallow: /

　　3. 仅禁止Baiduspider访问您的网站

　　User-agent: Baiduspider

　　Disallow: /

　　4. 仅允许Baiduspider访问您的网站

　　User-agent: Baiduspider

　　Disallow:

　　5. 禁止spider访问特定目录

　　User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　6. 允许访问特定目录中的部分url

　　User-agent: *

　　Allow: /cgi-bin/see

　　Allow: /tmp/hi

　　Allow: /~joe/look

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　7. 使用”*”限制访问url

　　禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

　　User-agent: *

　　Disallow: /cgi-bin/*.htm

　　8. 使用”$”限制访问url

　　仅允许访问以”.htm”为后缀的URL。

　　User-agent: *

　　Allow: .htm$

　　Disallow: /

　　例9. 禁止访问网站中所有的动态页面

　　User-agent: *

　　Disallow: /*?*

　　10. 禁止Baiduspider抓取网站上所有图片

　　仅允许抓取网页，禁止抓取任何图片。

　　User-agent: Baiduspider

　　Disallow: .jpg$

　　Disallow: .jpeg$

　　Disallow: .gif$

　　Disallow: .png$

　　Disallow: .bmp$

　　11. 仅允许Baiduspider抓取网页和.gif格式图片

　　允许抓取网页和gif格式图片，不允许抓取其他格式图片

　　User-agent: Baiduspider

　　Allow: .gif$

　　Disallow: .jpg$

　　Disallow: .jpeg$

　　Disallow: .png$

　　Disallow: .bmp$

　　12. 仅禁止Baiduspider抓取.jpg格式图片

　　User-agent: Baiduspider

　　Disallow: .jpg$

　　附录：　各大搜索引擎蜘蛛名称

　　1、百度蜘蛛：Baiduspider

　　网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等，都洗洗睡吧，那是旧黄历了。百度蜘蛛最新名称为Baiduspider。日志中还发现了Baiduspider-image这个百度旗下蜘蛛，查了下资料(其实直接看名字就可以了……)，是抓取图片的蜘蛛。

　　常见百度旗下同类型蜘蛛还有下面这些：Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。

　　注：以上百度蜘蛛目前常见的是Baiduspider和Baiduspider-image两种。

　　2、谷歌蜘蛛：Googlebot

　　这个争议较少，但也有说是GoogleBot的。谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”。还发现了Googlebot-Mobile，看名字是抓取wap内容的。

　　3、360蜘蛛：360Spider，它是一个很“勤奋抓爬”的蜘蛛。

　　4、SOSO蜘蛛：Sosospider，也可为它颁一个“勤奋抓爬”奖的蜘蛛。

　　5、雅虎蜘蛛：“Yahoo! Slurp China”或者Yahoo!

　　名称中带“Slurp”和空格，名称有空格robots里名称可以使用“Slurp”或者“Yahoo”单词描述，不知道有效无效。

　　6、有道蜘蛛：YoudaoBot，YodaoBot(两个名字都有，中文拼音少了个U字母读音差别很大嘎，这都会少?)

　　7、搜狗蜘蛛：Sogou News Spider

　　搜狗蜘蛛还包括如下这些：Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider，

　　(参考一些网站的robots文件，搜狗蜘蛛名称可以用Sogou概括，无法验证不知道有没有效)

　　看看最权威的百度的robots.txt ，http://www.baidu.com/robots.txt 就为Sogou搜狗蜘蛛费了不少字节，占了一大块领地。

　　“Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前6个，名称都带空格。

　　线上常见”Sogou web spider/4.0″ ;”Sogou News Spider/4.0″ ;”Sogou inst spider/4.0″ 可以为它颁个“占名为王”奖。

　　8、MSN蜘蛛：msnbot，msnbot-media(只见到msnbot-media在狂爬……)

　　9、必应蜘蛛：bingbot

　　线上(compatible; bingbot/2.0;)

　　10、一搜蜘蛛：YisouSpider

　　11、Alexa蜘蛛：ia_archiver

　　12、宜sou蜘蛛：EasouSpider

　　13、即刻蜘蛛：JikeSpider

　　14、一淘网蜘蛛：EtaoSpider

　　”Mozilla/5.0 (compatible; EtaoSpider/1.0; http://省略/EtaoSpider)”

　　根据上述蜘蛛中选择几个常用的允许抓取，其余的都可以通过robots屏蔽抓取。如果你暂时空间流量还足够使用，等流量紧张了就保留几个常用的屏蔽掉其它蜘蛛以节省流量。至于那些蜘蛛抓取对网站能带来有利用的价值，网站的管理者眼睛是雪亮的。

robots.txt文本介绍和搜索引擎蜘蛛详解

由鹿飞

您错过了

戏说各个网站源码程序的优劣

网站换友链的二三心得

相对于谷歌，我更喜欢百度

谷歌增加索引的方法

分类

robots.txt文本介绍和搜索引擎蜘蛛详解

由 鹿飞

相关文章

戏说各个网站源码程序的优劣

网站换友链的二三心得

谷歌增加索引的方法

您错过了

戏说各个网站源码程序的优劣

网站换友链的二三心得

相对于谷歌，我更喜欢百度

谷歌增加索引的方法

由鹿飞