黑帽联盟

 找回密码
 会员注册
查看: 1596|回复: 0
打印 上一主题 下一主题

[技术文章] 【百度官方说法】网页不收录,都是邀请码惹的祸

[复制链接]

895

主题

38

听众

3323

积分

管理员

Rank: 9Rank: 9Rank: 9

  • TA的每日心情
    无聊
    7 天前
  • 签到天数: 1644 天

    [LV.Master]伴坛终老

    平台攻城狮近日接到了百度内部用户的反馈,说lvshi.baidu.com站点的收录情况比较差,希望协助追查原因。

    攻城狮追查的过程如下:
    首先通过site语法检索,发现收录量确实比较少,只有11条,而且还发现一部分是死链数据。

    007131484813533.png

    然后根据用户反馈的部分url,检测发现这批链接在2016年12月26日当天已经就已经抓取回来了,首次抓取上是没有问题;

    http://lvshi.baidu.com/help/about/story
    http://lvshi.baidu.com/help/about/contact
    http://lvshi.baidu.com/help/user/guide
    http://lvshi.baidu.com/help/user/question
    http://lvshi.baidu.com/help/user/feedback
    http://lvshi.baidu.com/help/cooperation/provider
    http://lvshi.baidu.com/goods?categoryid=1
    http://lvshi.baidu.com/goods/33

    紧接着发现这批网页都被百度爬虫判定为空短页面,从网页库中获取当时的抓取页面,检查发现这些页面抓取回来的内容是一样的,都是提示让输入邀请码。
    043611484813533.png

    被百度爬虫判断为空短页面,肯定是不能被百度搜索收录的。

    有站长可能会问,那等网站全部开放后,是不是就可以收录了呢?对于百度爬虫来说,当对一个网站抓取后发现大面积都是低值的空短页面时,爬虫会认为这个站点的整体价值比较低,那么在后面的抓取流量分布上会降低,导致针对该站点的页面更新会比较慢,进而收录也会比较慢。这里学院君再次强调一下,不要让爬虫给站点画上不优质的标签哦,后果很严重!

    那么该如何避免呢?方法其实比较简单,网站在邀请测试阶段使用robots封禁就可以。

    以上原文转载自百度站长平台
    帖子永久地址: 

    黑帽联盟 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
    2、本站所有主题由该帖子作者发表,该帖子作者与黑帽联盟享有帖子相关版权
    3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和黑帽联盟的同意
    4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
    5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
    6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
    7、黑帽联盟管理员和版主有权不事先通知发贴者而删除本文

    勿忘初心,方得始终!
    您需要登录后才可以回帖 登录 | 会员注册

    发布主题 !fastreply! 收藏帖子 返回列表 搜索
    回顶部