黑帽联盟

 找回密码
 会员注册
查看: 1420|回复: 0
打印 上一主题 下一主题

[技术文章] robots协议支持-官方解释

[复制链接]

895

主题

38

听众

3323

积分

管理员

Rank: 9Rank: 9Rank: 9

  • TA的每日心情
    无聊
    5 天前
  • 签到天数: 1644 天

    [LV.Master]伴坛终老

    360搜索对Robots协议的支持
    360搜索支持Robots协议的主要命令,以下为具体说明:
    1. user-agent
    360搜索支持user-agent命令,包括使用通配符的user-agent命令。360搜索各产品的爬虫user-agent为:
    - 网页搜索 360Spider
    - 网页搜索 HaoSouSpider
    360搜索将优先使用HaoSouSpider来访问站点,如果遇到UA识别无法下载页面,会再用 360spider抓取,蜘蛛IP不更改。
    - 图片搜索 360Spider-Image
    - 视频搜索 360Spider-Video
    2. Allow
    站长可通过Allow命令指定建议收录的文件、目录 。
    3. Disallow
    站长可通过Disallow命令指定不建议收录的文件、目录。


    360搜索对Robots协议的扩展
    360搜索根据站长们的反馈,会陆续推出扩展的Robots协议命令。这些命令将能帮助站长们提高和360搜索爬虫沟通的效率,减少站长们维护Robots协议文件的技术成本。
    360搜索首个扩展命令是:indexpage,站长们可以使用此命令告知360搜索哪些网页经常更新。360搜索会根据站长的指示以及自己的算法,智能调整爬虫抓取频率,实现对您网站新内容的更高频率抓取。
    在命令中可以使用*、$等通配符。
    示例:
    使用通配符的
    Indexpage: http://bbs.360safe.com/forum-*-1.html$
    Indexpage: http://ent.sina.com.cn/*/roll.html
    不用通配符的:
    Indexpage: http://roll.tech.sina.com.cn/internet_all/index.shtml
    Indexpage: http://roll.tech.sina.com.cn/it/index.shtml
    Indexpage: http://roll.tech.sina.com.cn/tele/index.shtml
    Indexpage: http://roll.tech.sina.com.cn/discovery/index.shtml
    Indexpage: http://roll.tech.sina.com.cn/elec/index.shtml


    对Robots协议的善意使用
    Robots协议是一个搜索引擎和网站之间的善意协议,我们鼓励站长们也以善意的方式使用这一协议,尽量提供准确的信息,除非有充足理由,不使用Robots协议屏蔽某些特定搜索引擎爬虫。



    帖子永久地址: 

    黑帽联盟 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
    2、本站所有主题由该帖子作者发表,该帖子作者与黑帽联盟享有帖子相关版权
    3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和黑帽联盟的同意
    4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
    5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
    6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
    7、黑帽联盟管理员和版主有权不事先通知发贴者而删除本文

    勿忘初心,方得始终!
    您需要登录后才可以回帖 登录 | 会员注册

    发布主题 !fastreply! 收藏帖子 返回列表 搜索
    回顶部