黑帽联盟

 找回密码
 会员注册
查看: 1518|回复: 0
打印 上一主题 下一主题

[技术文章] 用shell分析网站蜘蛛抓取日志

[复制链接]
yun 黑帽联盟官方人员 

920

主题

37

听众

1364

积分

超级版主

Rank: 8Rank: 8

  • TA的每日心情
    奋斗
    2019-10-18 11:20
  • 签到天数: 678 天

    [LV.9]以坛为家II

    为何要日志分析:“首先要知道数据做什么用,怎么用,分析的意义在哪里!但是本身这个只是指导你工作决策的,不能太执迷! 我看很多人把大量时间都在折腾蜘蛛去了,也是不正确的方法!自己一定要搞清目的。。。。。“

    日志分析关注的点要了解,要了解哪些维度,如何分析。。。。。

    现在把罗列下这些项:
    //统计不重复抓取数量
    //统计所有状态码数量
    //统计某个目录抓取次数
    //统计各个目录出现404响应码次数
    //统计404页面的抓取数量
    //统计每个ip下对应URL的抓取次数
    //提取百度蜘蛛访问数量前10的网站目录及访问次数,并按降序排列
    //提取某个目录百度蛛蛛访问次数
    //统计首页抓取的次数占总体抓取次数比率
    //统计404响应码占总响应码比率
    //计算百度抓取总时间与总抓取次数
    //计算百度抓取总字节数
    //计算平均每次每个网页抓取字节数(小数点后面大于5进1)

    底下都举一个例子,大家就自己套用。。
    下面我们就进入演示。。。。请大家盯紧了。。
    这是我日志截图:


    201307311103296075.png


    //统计不重复抓取数量
    cat baidu.log | awk '{print $4}'|sort|uniq|wc -l
    201307301936323262.png


    //统计所有状态码数量
    awk '{print $10}' baidu.log |sort|uniq -c
    201307301937275293.png



    //统计某个目录抓取次数
    grep "/shop" baidu.log | awk '{print $4}' |sort |wc –l
    201307301938146387.png


    //统计各个目录出现404响应码次数
    201307301939033106.png


    //统计404页面的抓取数量
    awk '{if($10=="404"){print $0}}' baidu.log|sort|uniq|wc -l
    201307301941344668.png


    //统计每个ip下对应URL的抓取次数
    awk '{print $6,$4}' baidu.log |sort|uniq –c
    201307301944184512.png


    /提取百度蜘蛛访问数量前10的网站目录及访问次数,并按降序排列
    awk '{print $4}' baidu.log |grep -P "[^/(a-zA-Z)|^/(a-zA-Z)/]"|awk -F"/" '{print $2}'|sort|uniq -c|sort -r|head -10
    201307301947151075.png


    //提取某个目录百度蛛蛛访问次数
    cat baidu.log | grep “/shop/”| wc –l
    cat baidu.log |awk ‘{print $4}’ |grep “/shop/” |wc –l
    cat baidu.log |awk ‘{print $4} |awk –F”/” ‘{print $2}’|grep “shop”|wc -l
    201307301951167325.png


    //统计首页抓取的次数占总体抓取次数比率
    cat baidu.log |awk '{print $4}'|awk '{if($0=="/"){n=n+1}}END{print n/NR*100"%"}'
    201307301952152325.png


    //统计404响应码占总响应码比率
    cat baidu.log |awk '{print $10}'|awk '{if($0=="404"){n=n+1}}END{print n/NR*100"%"}'
    201307301953163262.png


    //计算百度抓取总时间与总抓取次数
    cat baidu.log|awk '{FS=" "} {print $2}'|awk -F":" '{print $2}'| sort |uniq -c|awk 'BEGIN{print "小时","次数"} {print $2,$1}'|awk '{for(n=0;n<5;n++){b=$2}} {a+=b} {print $0}END{print "总数"b,a}’

    201307301954182325.png


    /计算百度抓取总字节数
    cat baidu.log |awk '{print $11}'|awk 'BEGIN{total=0}{total+=$1}END{print total}'
    201307301954595450.png


    //计算平均每次每个网页抓取字节数(小数点后面大于5进1)
    201307301955446856.png


    帖子永久地址: 

    黑帽联盟 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
    2、本站所有主题由该帖子作者发表,该帖子作者与黑帽联盟享有帖子相关版权
    3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和黑帽联盟的同意
    4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
    5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
    6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
    7、黑帽联盟管理员和版主有权不事先通知发贴者而删除本文

    您需要登录后才可以回帖 登录 | 会员注册

    发布主题 !fastreply! 收藏帖子 返回列表 搜索
    回顶部