黑帽联盟

 找回密码
 会员注册
查看: 1450|回复: 1
打印 上一主题 下一主题

[其它] BaiduSpider升级了3.0抓取速度提升80%

[复制链接]

895

主题

38

听众

3324

积分

管理员

Rank: 9Rank: 9Rank: 9

  • TA的每日心情

    3 天前
  • 签到天数: 1646 天

    [LV.Master]伴坛终老

    BaiduSpider3.0升级了,抓取速度提升80%,带大家一起来看看吧。

    f5466ba77f9ed5ea.png

    BaiduSpider升级到3.0,抓取速度提升80%

    Baidu Spider上一次升级还要追溯到2010年。
    那个时候,中国互联网资源急剧扩张,从百亿扩大到千亿规模,因而spider系统进行了重构,从单机互联转变为分布式计算系统。
    但是有一个很大的缺点:延时严重!
    而此次重构是把当前离线、全量计算为主的系统,改造成实时、增量计算的全实时调度系统,万亿规模的数据进行实时读写,可以收录90%的网页,速度提升80%!
    一张图以蔽之:

    20160620092614697.jpg
    Baidu Spider3.0


    一、链接发现方面
    如今sipder每天发现的新链接在500亿左右的量级,而在百度站长平台提交链接是其中最为高效的,特此,工程师提醒站长不要过度提交链接,尤其是低质链接,这样才能达到更好更及时的收录效果。

    二、链接抓取方面
    策略上,开发了更强大的机器学习模型,来进行链接的质量预测,对库中所有的链接进行全局排序,对有价值链接的召回率提高95%!
    架构上,计算性能的强劲提升,对每天新增的数百亿模块的链接,完成实时计算,延时不到1秒;开发了更强大的存储系统,面对万亿规模的数据做到实时读写

    三、时效性页面方面
    中长尾站的福音!针对时效性资源,从原来的优先对新浪、网易等大新闻站进行抓取,扩大到覆盖全网的新闻、博客、论坛等站点进行快速抓取,大小站都能优待。
    打破老的平稳抓取模型,采用按需抓取机制,对有时效性新资源,做到秒级抓取。
    目前,每天收录的时效性资源规模,扩大到原来的3倍,达到近1亿量级!

    四、死链方面
    全新的死链识别模型,能识别各种协议死链、内容死链、跳转死链等低质网页。
    其中无效低质网页(如被黑),通过百度站长平台提交,可加快检索屏蔽的过程。

    五、建库方面
    索引展现时效性提升,原来是10天左右,现在提升40%~80%不等!
    最后总结一下原文中的植入广告:
    Spider3.0时代
    站长平台链接提交工具,可以让抓取快上加快!
    站长平台死链提交工具,可以让检索屏蔽过程快上加快!
    请问,你的网站验证了吗?

    来源:百度站长平台

    帖子永久地址: 

    黑帽联盟 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
    2、本站所有主题由该帖子作者发表,该帖子作者与黑帽联盟享有帖子相关版权
    3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和黑帽联盟的同意
    4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
    5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
    6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
    7、黑帽联盟管理员和版主有权不事先通知发贴者而删除本文

    勿忘初心,方得始终!

    4

    主题

    3

    听众

    302

    积分

    黑帽学员

    Rank: 3Rank: 3

  • TA的每日心情
    郁闷
    2019-5-8 02:08
  • 签到天数: 265 天

    [LV.8]以坛为家I

    图片我就服这张蜘蛛
    来自安卓客户端来自安卓客户端
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 会员注册

    发布主题 !fastreply! 收藏帖子 返回列表 搜索
    回顶部