robots.txt文本介绍和搜索引擎蜘蛛详解

robots.txt 放置位置

  robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如https://www.65fly.com)时,首先会检查该网站中是否存在http://www.ziyuan1996.top/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

  写robots注意事项

  1、robots.txt 所有字母必须是小写,必须放到网站根目录

  2、User-agent:* 表示定义所有蜘蛛,User-agent:Baiduspider表示定义百度蜘蛛。这里要注意*前面有个空格,否则不生效;

  3、禁止与允许访问

  Disallow: /表示禁止访问,Allow: /表示允许访问。在写robots.txt时需特别注意的是,/前面有一个英文状态下的空格(必须是英文状态下的空格)。

  4、禁止访问网站中的动态页面

  Disallow: /?

  5、禁止搜索引擎访问文件夹中的某一类文件

  Disallow: /a/*.js

  6、禁止搜索引擎访问文件夹中的某一类目录和文件

  Disallow: /a/ps*

  7、禁止访问admin后台,防止后台泄露

  Disallow: /adm*

  8、使用”*”和”$”:

  Baiduspider 支持使用通配符””和””来模糊匹配url。“”来模糊匹配url。“” 匹配行结束符。 “” 匹配0或多个任意字符。

  例如允许收录所有.html的页面,Allow: .html$

  9、使用robots.txt提交站点地图

  Sitemap: https://www.XXXXXXXX.com/sitemap.xml 必须是全部路径;前面有个英文空格别忘记了!

  10、使用百度站长工具检查robots.txt是否有错误;

  特别注意事项

  在写robots.txt文件时语法一定要用对,User-agent、Disallow、Allow、Sitemap这些词都必须是第一个字母大写,后面的字母小写,而且在:后面必须带一个英文字符下的空格。

  网站上线之前切记写robots.txt文件禁止蜘蛛访问网站,如果不会写就先了解清楚写法之后再写,以免给网站收录带来不必要的麻烦。  robots.txt文件用法举例:

  1. 允许所有的robot访问

  User-agent: * Allow: / 或者 User-agent: * Disallow:

  2. 禁止所有搜索引擎访问网站的任何部分

  User-agent: *

  Disallow: /

  3. 仅禁止Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow: /

  4. 仅允许Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow:

  5. 禁止spider访问特定目录

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~joe/

  6. 允许访问特定目录中的部分url

  User-agent: *

  Allow: /cgi-bin/see

  Allow: /tmp/hi

  Allow: /~joe/look

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~joe/

  7. 使用”*”限制访问url

  禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

  User-agent: *

  Disallow: /cgi-bin/*.htm

  8. 使用”$”限制访问url

  仅允许访问以”.htm”为后缀的URL。

  User-agent: *

  Allow: .htm$

  Disallow: /

  例9. 禁止访问网站中所有的动态页面

  User-agent: *

  Disallow: /*?*

  10. 禁止Baiduspider抓取网站上所有图片

  仅允许抓取网页,禁止抓取任何图片。

  User-agent: Baiduspider

  Disallow: .jpg$

  Disallow: .jpeg$

  Disallow: .gif$

  Disallow: .png$

  Disallow: .bmp$

  11. 仅允许Baiduspider抓取网页和.gif格式图片

  允许抓取网页和gif格式图片,不允许抓取其他格式图片

  User-agent: Baiduspider

  Allow: .gif$

  Disallow: .jpg$

  Disallow: .jpeg$

  Disallow: .png$

  Disallow: .bmp$

  12. 仅禁止Baiduspider抓取.jpg格式图片

  User-agent: Baiduspider

  Disallow: .jpg$

  附录: 各大搜索引擎蜘蛛名称

  1、百度蜘蛛:Baiduspider

  网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,都洗洗睡吧,那是旧黄历了。百度蜘蛛最新名称为Baiduspider。日志中还发现了Baiduspider-image这个百度旗下蜘蛛,查了下资料(其实直接看名字就可以了……),是抓取图片的蜘蛛。

  常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。

  注:以上百度蜘蛛目前常见的是Baiduspider和Baiduspider-image两种。

  2、谷歌蜘蛛:Googlebot

  这个争议较少,但也有说是GoogleBot的。谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”。还发现了Googlebot-Mobile,看名字是抓取wap内容的。

  3、360蜘蛛:360Spider,它是一个很“勤奋抓爬”的蜘蛛。

  4、SOSO蜘蛛:Sosospider,也可为它颁一个“勤奋抓爬”奖的蜘蛛。

  5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!

  名称中带“Slurp”和空格,名称有空格robots里名称可以使用“Slurp”或者“Yahoo”单词描述,不知道有效无效。

  6、有道蜘蛛:YoudaoBot,YodaoBot(两个名字都有,中文拼音少了个U字母读音差别很大嘎,这都会少?)

  7、搜狗蜘蛛:Sogou News Spider

  搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,

  (参考一些网站的robots文件,搜狗蜘蛛名称可以用Sogou概括,无法验证不知道有没有效)

  看看最权威的百度的robots.txt ,http://www.baidu.com/robots.txt 就为Sogou搜狗蜘蛛费了不少字节,占了一大块领地。

  “Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前6个,名称都带空格。

  线上常见”Sogou web spider/4.0″ ;”Sogou News Spider/4.0″ ;”Sogou inst spider/4.0″ 可以为它颁个“占名为王”奖。

  8、MSN蜘蛛:msnbot,msnbot-media(只见到msnbot-media在狂爬……)

  9、必应蜘蛛:bingbot

  线上(compatible; bingbot/2.0;)

  10、一搜蜘蛛:YisouSpider

  11、Alexa蜘蛛:ia_archiver

  12、宜sou蜘蛛:EasouSpider

  13、即刻蜘蛛:JikeSpider

  14、一淘网蜘蛛:EtaoSpider

  ”Mozilla/5.0 (compatible; EtaoSpider/1.0; http://省略/EtaoSpider)”

  根据上述蜘蛛中选择几个常用的允许抓取,其余的都可以通过robots屏蔽抓取。如果你暂时空间流量还足够使用,等流量紧张了就保留几个常用的屏蔽掉其它蜘蛛以节省流量。至于那些蜘蛛抓取对网站能带来有利用的价值,网站的管理者眼睛是雪亮的。

Avatar photo

鹿飞