admin 发表于 2016-11-15 10:36:56

Robots内部语法详解

Robots的相关语法:1、      User-agent:Baiduspider(是用来定义搜索引擎的,百度)User-agent:googlebot(谷歌)User-agent:*(屏蔽所有的搜索引擎)Disallow:/(屏蔽的内容路径,/代表根目录,网站的首级目录)如果里面没有明确写明屏蔽哪个搜索引擎,默认其搜索引擎是收录其网站内容的


如果屏蔽某一目录内的内容,但其中有一路径的内容不需要屏蔽,可以使用Allow:语法前提很重要:先允许再屏蔽如:user-agent:*   Allow:/php/cnblackhat.html  Disallow:/php/   (切忌不能写成:/php 此含义代表:屏蔽包含所有包含php的路径,例如:/phpadmin.php)先允许再屏蔽



通配符:1、“$”匹配行结束符2、“*”匹配0个或多个任意字符通配符的作用:模糊匹配路径(url)例子:需要屏蔽20外动态路径。就可以使用通配符模糊匹配,找出路径的规律,不然一个个屏蔽,百度蜘蛛爬取会很辛苦的。


“*”字符的详解:1、/cnblackhat                 /cn*hat(后者是可以代替前者的)2、/cnblackhat                 /*hat3、/cnblackhat                 /cnhack*hat(明显然是不可以代替的,字符不一致)


“$”的详细讲解:1、html$                               cnblackhat.html(前者是可以匹配后者的,不管前面是什么内容,只要结尾是html就可以了)2、shtml$                              cnblackhat.html(很显然前者是不匹配的后者的。结尾多了一个s)


实例讲解:1、      伪静态如何屏蔽/cnblackhat/目录下的所有动态路径?Disaddlow:/cnblackhat/*?*

2、      图片如何屏蔽/cnblackhat/目录下的所有图片?Disallow:/cnblackhat/*.jpgDisallow:/cnblackhat/*.jpegDisallow:/cnblackhat/*.gifDisallow:/cnblackhat/*.bmpDisallow:/cnblackhat/*.png


相关链接:https://bbs.cnblackhat.com/thread-439-1-1.html
页: [1]
查看完整版本: Robots内部语法详解