黑帽联盟

 找回密码
 会员注册
查看: 1856|回复: 0
打印 上一主题 下一主题

[技术文章] python批量抓取页面上的链接

[复制链接]

895

主题

38

听众

3323

积分

管理员

Rank: 9Rank: 9Rank: 9

  • TA的每日心情
    无聊
    5 天前
  • 签到天数: 1644 天

    [LV.Master]伴坛终老

    爬虫里重要的一部分是抓取页面中的链接,我在这里简单的实现一下。当然我们还可以进行拓展一下,批量检测页面的死链接
    首先我们需要用到一个开源的模块,requests。这不是python自带的模块,需要从网上下载、解压与安装:
    1. $ curl -OL https://github.com/kennethreitz/requests/zipball/master
    2. $ python setup.py install
    复制代码
    上面这种方式我没试过,我这直接yum install python-requests -y安装的


    windows用户直接点击下载。解压后再本地使用命令python setup.py install安装即可。 https://github.com/kennethreitz/requests/zipball/master
    这个模块的文档我也正在慢慢翻译,翻译完了就给大家传上来(英文版先发在附件里)。就像它的说明里面说的那样,built for human beings,为人类而设计。使用它很方便,自己看文档。最简单的,requests.get()就是发送一个get请求。
    代码如下:(里面的地址自己改一下)
    游客,如果您要查看本帖隐藏内容请回复


    首先import进re和requests模块,re模块是使用正则表达式的模块。

    data = requests.get('https://bbs.cnblackhat.com'),向网易首页提交get请求,得到一个requests对象r,r.text就是获得的网页源代码,保存在字符串data中。

    再利用正则查找data中所有的链接,我的正则写的比较粗糙,直接把href=""或href=''之间的信息获取到,这就是我们要的链接信息。
    re.findall返回的是一个列表,用for循环遍历列表并输出:

    python批量抓取链接

    这是我获取到的所有连接的一部分。
    上面是获取网站里所有链接的一个简单的实现,没有处理任何异常,没有考虑到超链接的类型,代码仅供参考。requests模块文档见附件。

    帖子永久地址: 

    黑帽联盟 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
    2、本站所有主题由该帖子作者发表,该帖子作者与黑帽联盟享有帖子相关版权
    3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和黑帽联盟的同意
    4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
    5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
    6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
    7、黑帽联盟管理员和版主有权不事先通知发贴者而删除本文

    勿忘初心,方得始终!
    您需要登录后才可以回帖 登录 | 会员注册

    发布主题 !fastreply! 收藏帖子 返回列表 搜索
    回顶部