Robots内部语法详解
Robots的相关语法:1、 User-agent:Baiduspider(是用来定义搜索引擎的,百度)User-agent:googlebot(谷歌)User-agent:*(屏蔽所有的搜索引擎)Disallow:/(屏蔽的内容路径,/代表根目录,网站的首级目录)如果里面没有明确写明屏蔽哪个搜索引擎,默认其搜索引擎是收录其网站内容的如果屏蔽某一目录内的内容,但其中有一路径的内容不需要屏蔽,可以使用Allow:语法前提很重要:先允许再屏蔽如:user-agent:* Allow:/php/cnblackhat.html Disallow:/php/ (切忌不能写成:/php 此含义代表:屏蔽包含所有包含php的路径,例如:/phpadmin.php)先允许再屏蔽
通配符:1、“$”匹配行结束符2、“*”匹配0个或多个任意字符通配符的作用:模糊匹配路径(url)例子:需要屏蔽20外动态路径。就可以使用通配符模糊匹配,找出路径的规律,不然一个个屏蔽,百度蜘蛛爬取会很辛苦的。
“*”字符的详解:1、/cnblackhat /cn*hat(后者是可以代替前者的)2、/cnblackhat /*hat3、/cnblackhat /cnhack*hat(明显然是不可以代替的,字符不一致)
“$”的详细讲解:1、html$ cnblackhat.html(前者是可以匹配后者的,不管前面是什么内容,只要结尾是html就可以了)2、shtml$ cnblackhat.html(很显然前者是不匹配的后者的。结尾多了一个s)
实例讲解:1、 伪静态如何屏蔽/cnblackhat/目录下的所有动态路径?Disaddlow:/cnblackhat/*?*
2、 图片如何屏蔽/cnblackhat/目录下的所有图片?Disallow:/cnblackhat/*.jpgDisallow:/cnblackhat/*.jpegDisallow:/cnblackhat/*.gifDisallow:/cnblackhat/*.bmpDisallow:/cnblackhat/*.png
相关链接:https://bbs.cnblackhat.com/thread-439-1-1.html
页:
[1]