设为首页
收藏本站
黑币充值
VIP购买
用户登录
用户注册
请
登录
后使用快捷导航
没有帐号?
会员注册
用户名
Email
自动登录
找回密码
密码
登录
会员注册
论坛
家园
任务
排行榜
服务器
总版规
广告投放
邀请码
VIP购买
官方QQ群:
每日签到
会员求助
云排名
计算机基础
黑帽seo
白帽seo
建站分享
网赚营销
网络安全
linux交流
windows
资源教程
编程开发
数据库
艺术设计
视频制作
IT新闻
人生百态
金点子
每日签到
信息监察
站务公告
职位申请
站内投稿
站群服务
黑帽联盟
»
论坛
›
编程/设计/数据库
›
编程开发
›
批量抓取网页上的视频 python程序
返回列表
查看:
1611
|
回复:
0
[其它]
批量抓取网页上的视频 python程序
[复制链接]
定位
定位
当前离线
窥视卡
雷达卡
895
主题
38
听众
3329
积分
管理员
TA的每日心情
难过
昨天 22:31
签到天数: 1652 天
[LV.Master]伴坛终老
收听TA
发消息
电梯直达
楼主
|
只看该作者
|
倒序浏览
爬虫小程序(批量抓取网页上的视频)
内容如下:
一个网站下的源代码:
右键查看源代码,发现提供下载的视频格式都是“.mp4”后缀:
2017-1-22 16:32 上传
下载附件
(119.6 KB)
批量抓取视频
网页上提供下载的视频在源代码中都是这种式:href='http://mov.bn.netease.com/mobilev/2011/9/8/V/S7CTIQ98V.mp4'
据此可以写出所要匹配的正则表达式:r=r" href='(http.*\.mp4)' "
接下来的任务就是获取网页源代码,然后在源代码里面寻找所有匹配正则r的字符串。
抓取源代码可以利用urllib里的urlopen()方法:page=urllib.urlopen(url),返回的是一个页面的对象page,通过html=page.read()可以将页面源代码保存到html变量中。
源代码抓下来之后,就要寻找并获取里面所有的:
href='http://mov.bn.netease.com/mobilev/2011/9/8/V/S7CTIQ98V.mp4'
可以通过正则r,以及正则模块re里的findall方法来获取:mp4List=re.findall(re_mp4,html)
findall返回的是列表,列表里的元素就是视频的地址了,比如下面就是一个视频地址: http://mov.bn.netease.com/mobilev/2011/9/8/V/S7CTIQ98V.mp4
视频的地址抓取下来后,利用模块urllib里的urlretrieve()方法通过视频地址将视频下载下来: urllib.urlretrieve(mp4url),mp4url是mp4List里的元素。另外还可以给下载下来的视频命名:urllib.urlretrieve(mp4url,"%s.mp4" %filename),这个filename是个变量,当下载完一个视频后,它就加1,这样所有视频被命名为1.mp4,2.mp4,3.mp4...........
为了便于查看下载进度,可以在urllib.urlretrieve(mp4url,"%s.mp4" %filename)后面加一句:
print 'file "%s.mp4" done' %filename,这样下载完一个视频后就会输出一行提示
运行效果如下:
2017-1-22 16:32 上传
下载附件
(30.25 KB)
python批量抓取
2017-1-22 16:32 上传
下载附件
(47.25 KB)
视频抓取
代码如下:(python2.6)
游客,如果您要查看本帖隐藏内容请
回复
批量抓取视频
,
python批量抓取
,
python程序
转播
0
淘帖
0
分享
0
收藏
0
赞
1
踩
0
帖子永久地址:
推荐给好友
黑帽联盟 - 论坛版权
1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
2、本站所有主题由该帖子作者发表,该帖子作者与
黑帽联盟
享有帖子相关版权
3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和
黑帽联盟
的同意
4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
7、
黑帽联盟
管理员和版主有权不事先通知发贴者而删除本文
相关帖子
•
python设计登录程序
•
python程序编写数据查询功能-个人原创
•
用python批量抓取网站的图片
勿忘初心,方得始终!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
会员注册
发表回复
回帖并转播
回帖后跳转到最后一页
发布主题
!fastreply!
收藏帖子
返回列表
搜索
个人中心
个人中心
登录或注册
回顶部
积分 0, 距离下一级还需 积分
回顶部