黑帽联盟

 找回密码
 会员注册
查看: 1470|回复: 0
打印 上一主题 下一主题

[技术文章] 搜索引擎抓取内容过程简述

[复制链接]
yun 黑帽联盟官方人员 

920

主题

37

听众

1364

积分

超级版主

Rank: 8Rank: 8

  • TA的每日心情
    奋斗
    2019-10-18 11:20
  • 签到天数: 678 天

    [LV.9]以坛为家II

    学seo的可以好好看看,总之,用心去做,贵在坚持!一定会做好

    1、搜索引擎程序是通过网页之间的链接,不分昼夜的爬行来获取信息,收录标准主要由URL的权重、网站规模大小等因素决定;

    2、搜索引擎进入服务器时,第一时间查看robots.txt(控制搜索引擎收录的标准)文件,如果robots.txt文件不存在,则返回404错误代码,但依然会继续爬行,如果定义了某些规则,则遵守索引。

    3、建议必须有一个robots .txt文件(推荐阅读:robots.txt的写法https://bbs.cnblackhat.com/thread-438-1-1.html)。

      搜索引擎抓取数据的方式
    1、垂直抓取策略:指搜索引擎顺着一条链接爬行,直到设定的任务完成。
    思路如下:垂直抓取策略—A链接—A网页链接—A网页链接的链接 ,一直垂直抓取到最底。

    2、平行抓取策略:指先把网页上的链接全部抓取一次,然后接着从每条链接牌型。
    总结:在实际应用中,这两种策略会同时发生,抓取的深度和广度取决于页面的权重、结构和网站规模大小以及新鲜内容数量和频率,当然这里面包含了很多的seo的策略。


    帖子永久地址: 

    黑帽联盟 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
    2、本站所有主题由该帖子作者发表,该帖子作者与黑帽联盟享有帖子相关版权
    3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和黑帽联盟的同意
    4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
    5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
    6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
    7、黑帽联盟管理员和版主有权不事先通知发贴者而删除本文

    您需要登录后才可以回帖 登录 | 会员注册

    发布主题 !fastreply! 收藏帖子 返回列表 搜索
    回顶部