黑帽联盟

标题: Robots内部语法详解 [打印本页]

作者: admin    时间: 2016-11-15 10:36
标题: Robots内部语法详解
Robots的相关语法:
1、      User-agent:Baiduspider(是用来定义搜索引擎的,百度)
User-agent:googlebot(谷歌)
User-agent:*(屏蔽所有的搜索引擎)
Disallow:/(屏蔽的内容路径,/代表根目录,网站的首级目录)
如果里面没有明确写明屏蔽哪个搜索引擎,默认其搜索引擎是收录其网站内容的


如果屏蔽某一目录内的内容,但其中有一路径的内容不需要屏蔽,可以使用Allow:语法前提很重要:先允许再屏蔽
如:user-agent:*
   Allow:/php/cnblackhat.html
  Disallow:/php/   (切忌不能写成:/php 此含义代表:屏蔽包含所有包含php的路径,例如:/phpadmin.php)
先允许再屏蔽



通配符:
1、“$”匹配行结束符
2、“*”匹配0个或多个任意字符
通配符的作用:模糊匹配路径(url)
例子:需要屏蔽20外动态路径。
就可以使用通配符模糊匹配,找出路径的规律,不然一个个屏蔽,百度蜘蛛爬取会很辛苦的。


“*”字符的详解:
1、/cnblackhat                 /cn*hat(后者是可以代替前者的)
2、/cnblackhat                 /*hat
3、/cnblackhat                 /cnhack*hat(明显然是不可以代替的,字符不一致)


“$”的详细讲解:
1、html$                               cnblackhat.html(前者是可以匹配后者的,不管前面是什么内容,只要结尾是html就可以了)
2、shtml$                              cnblackhat.html(很显然前者是不匹配的后者的。结尾多了一个s)


实例讲解:
1、      伪静态
如何屏蔽/cnblackhat/目录下的所有动态路径?
Disaddlow:/cnblackhat/*?*

2、      图片
如何屏蔽/cnblackhat/目录下的所有图片?
Disallow:/cnblackhat/*.jpg
Disallow:/cnblackhat/*.jpeg
Disallow:/cnblackhat/*.gif
Disallow:/cnblackhat/*.bmp
Disallow:/cnblackhat/*.png



相关链接:https://bbs.cnblackhat.com/thread-439-1-1.html




欢迎光临 黑帽联盟 (https://bbs.cnblackhat.com/) Powered by Discuz! X2.5