Robots的相关语法: 1、 User-agent:Baiduspider(是用来定义搜索引擎的,百度) User-agent:googlebot(谷歌) User-agent:*(屏蔽所有的搜索引擎) Disallow:/(屏蔽的内容路径,/代表根目录,网站的首级目录) 如果里面没有明确写明屏蔽哪个搜索引擎,默认其搜索引擎是收录其网站内容的
如果屏蔽某一目录内的内容,但其中有一路径的内容不需要屏蔽,可以使用Allow:语法前提很重要:先允许再屏蔽 如:user-agent:* Allow:/php/cnblackhat.html Disallow:/php/ (切忌不能写成:/php 此含义代表:屏蔽包含所有包含php的路径,例如:/phpadmin.php) 先允许再屏蔽
通配符: 1、“$”匹配行结束符 2、“*”匹配0个或多个任意字符 通配符的作用:模糊匹配路径(url) 例子:需要屏蔽20外动态路径。 就可以使用通配符模糊匹配,找出路径的规律,不然一个个屏蔽,百度蜘蛛爬取会很辛苦的。
“*”字符的详解: 1、/cnblackhat /cn*hat(后者是可以代替前者的) 2、/cnblackhat /*hat 3、/cnblackhat /cnhack*hat(明显然是不可以代替的,字符不一致)
“$”的详细讲解: 1、html$ cnblackhat.html(前者是可以匹配后者的,不管前面是什么内容,只要结尾是html就可以了) 2、shtml$ cnblackhat.html(很显然前者是不匹配的后者的。结尾多了一个s)
实例讲解: 1、 伪静态 如何屏蔽/cnblackhat/目录下的所有动态路径? Disaddlow:/cnblackhat/*?*
2、 图片 如何屏蔽/cnblackhat/目录下的所有图片? Disallow:/cnblackhat/*.jpg Disallow:/cnblackhat/*.jpeg Disallow:/cnblackhat/*.gif Disallow:/cnblackhat/*.bmp Disallow:/cnblackhat/*.png
相关链接:https://bbs.cnblackhat.com/thread-439-1-1.html |