黑帽联盟

 找回密码
 会员注册
查看: 1561|回复: 0
打印 上一主题 下一主题

[技术文章] Robots内部语法详解

[复制链接]

295

主题

18

听众

965

积分

管理员

Rank: 9Rank: 9Rank: 9

  • TA的每日心情
    难过
    2024-11-13 00:16
  • 签到天数: 370 天

    [LV.9]以坛为家II

    Robots的相关语法:
    1、      User-agent:Baiduspider(是用来定义搜索引擎的,百度)
    User-agent:googlebot(谷歌)
    User-agent:*(屏蔽所有的搜索引擎)
    Disallow:/(屏蔽的内容路径,/代表根目录,网站的首级目录)
    如果里面没有明确写明屏蔽哪个搜索引擎,默认其搜索引擎是收录其网站内容的


    如果屏蔽某一目录内的内容,但其中有一路径的内容不需要屏蔽,可以使用Allow:语法前提很重要:先允许再屏蔽
    如:user-agent:*
       Allow:/php/cnblackhat.html
      Disallow:/php/   (切忌不能写成:/php 此含义代表:屏蔽包含所有包含php的路径,例如:/phpadmin.php)
    先允许再屏蔽



    通配符:
    1、“$”匹配行结束符
    2、“*”匹配0个或多个任意字符
    通配符的作用:模糊匹配路径(url)
    例子:需要屏蔽20外动态路径。
    就可以使用通配符模糊匹配,找出路径的规律,不然一个个屏蔽,百度蜘蛛爬取会很辛苦的。


    “*”字符的详解:
    1、/cnblackhat                 /cn*hat(后者是可以代替前者的)
    2、/cnblackhat                 /*hat
    3、/cnblackhat                 /cnhack*hat(明显然是不可以代替的,字符不一致)


    “$”的详细讲解:
    1、html$                               cnblackhat.html(前者是可以匹配后者的,不管前面是什么内容,只要结尾是html就可以了)
    2、shtml$                              cnblackhat.html(很显然前者是不匹配的后者的。结尾多了一个s)


    实例讲解:
    1、      伪静态
    如何屏蔽/cnblackhat/目录下的所有动态路径?
    Disaddlow:/cnblackhat/*?*

    2、      图片
    如何屏蔽/cnblackhat/目录下的所有图片?
    Disallow:/cnblackhat/*.jpg
    Disallow:/cnblackhat/*.jpeg
    Disallow:/cnblackhat/*.gif
    Disallow:/cnblackhat/*.bmp
    Disallow:/cnblackhat/*.png



    相关链接:https://bbs.cnblackhat.com/thread-439-1-1.html
    帖子永久地址: 

    黑帽联盟 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
    2、本站所有主题由该帖子作者发表,该帖子作者与黑帽联盟享有帖子相关版权
    3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和黑帽联盟的同意
    4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
    5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
    6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
    7、黑帽联盟管理员和版主有权不事先通知发贴者而删除本文

    您需要登录后才可以回帖 登录 | 会员注册

    发布主题 !fastreply! 收藏帖子 返回列表 搜索
    回顶部