黑帽联盟
标题: Robots内部语法详解 [打印本页]
作者: admin 时间: 2016-11-15 10:36
标题: Robots内部语法详解
Robots的相关语法:1、 User-agent:Baiduspider(是用来定义搜索引擎的,百度)
User-agent:googlebot(谷歌)
User-agent:*(屏蔽所有的搜索引擎)
Disallow:/(屏蔽的内容路径,/代表根目录,网站的首级目录)
如果里面没有明确写明屏蔽哪个搜索引擎,默认其搜索引擎是收录其网站内容的
如果屏蔽某一目录内的内容,但其中有一路径的内容不需要屏蔽,可以使用Allow:语法前提很重要:先允许再屏蔽
如:user-agent:*
Allow:/php/cnblackhat.html
Disallow:/php/ (切忌不能写成:/php 此含义代表:屏蔽包含所有包含php的路径,例如:/phpadmin.php)
先允许再屏蔽
通配符:
1、“$”匹配行结束符
2、“*”匹配0个或多个任意字符
通配符的作用:模糊匹配路径(url)
例子:需要屏蔽20外动态路径。
就可以使用通配符模糊匹配,找出路径的规律,不然一个个屏蔽,百度蜘蛛爬取会很辛苦的。
“*”字符的详解:
1、/cnblackhat /cn*hat(后者是可以代替前者的)
2、/cnblackhat /*hat
3、/cnblackhat /cnhack*hat(明显然是不可以代替的,字符不一致)
“$”的详细讲解:
1、html$ cnblackhat.html(前者是可以匹配后者的,不管前面是什么内容,只要结尾是html就可以了)
2、shtml$ cnblackhat.html(很显然前者是不匹配的后者的。结尾多了一个s)
实例讲解:
1、 伪静态
如何屏蔽/cnblackhat/目录下的所有动态路径?
Disaddlow:/cnblackhat/*?*
2、 图片
如何屏蔽/cnblackhat/目录下的所有图片?
Disallow:/cnblackhat/*.jpg
Disallow:/cnblackhat/*.jpeg
Disallow:/cnblackhat/*.gif
Disallow:/cnblackhat/*.bmp
Disallow:/cnblackhat/*.png
相关链接:https://bbs.cnblackhat.com/thread-439-1-1.html
欢迎光临 黑帽联盟 (https://bbs.cnblackhat.com/) |
Powered by Discuz! X2.5 |