黑帽联盟

 找回密码
 会员注册
查看: 1656|回复: 2
打印 上一主题 下一主题

[技术文章] 用python自动采集内容程序

[复制链接]
yun 黑帽联盟官方人员 

920

主题

37

听众

1364

积分

超级版主

Rank: 8Rank: 8

  • TA的每日心情
    奋斗
    2019-10-18 11:20
  • 签到天数: 678 天

    [LV.9]以坛为家II

    最近用wordpress做了一个小站,目的很简单就是要第一时间更新小说并发布到wordpress,本来是想用火车头解决的,但没有模块无赖之下,只有自己用python手写,本来是想用mysqldb直接插入的,但wordpress表单实在是有点麻烦,且远程速度有点慢。一想到python的主要思想是不要重复发明轮子,于是在pypi找到了wordpress_xmlrpc模块,主要功能就不说了

    目前wordpress_xmlrpc模块已经更新到了2.2版本,不过本人用的是1.5版本。懒的会员在centos下可以这样安装.
    Wget  https://pypi.python.org/packages/source/p/python-wordpress-xmlrpc/python-wordpress-xmlrpc-1.5.tar.gz --no-check-certificate
    tar zxf python-wordpress-xmlrpc-1.5.tar.gz
    cd python-wordpress-xmlrpc-1.5
    python setup.py install

    好了wordpress_xmlrpc模块就介绍到这儿,其它功能参考官网介绍。下面说一下程序思路。
    1、用一个记事本记录已经抓取的URL。
    2、再去抓这个页面看看,得到这个页面文章的全部URL。
    3、for一下这个页面的全部URL是否在TXT中。
    4、如果不在,就抓取这个URL的标题和内容发送到wordpress,并将URL写入txt中
    5、最后用crontab自动任务,每天定时跑。

    代码如下:(为防止某些会员不劳而获,用图片代替代码,红色部分别为网址,账号,密码,保存URL地址的txt)
    游客,如果您要查看本帖隐藏内容请回复


    当然代码有一个小问题就是没有定义类别,其实wordpress_xmlrpc也是可以定义发布类别的,只是本人比较懒就在后台撰写默认文章分类设置了一下目录。

    然后是crontab设为每小时定时更新一下。不会设置的自行脑补。
    201307152206596406.png


    帖子永久地址: 

    黑帽联盟 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
    2、本站所有主题由该帖子作者发表,该帖子作者与黑帽联盟享有帖子相关版权
    3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和黑帽联盟的同意
    4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
    5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
    6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
    7、黑帽联盟管理员和版主有权不事先通知发贴者而删除本文

    0

    主题

    0

    听众

    3

    积分

    黑帽菜鸟

    Rank: 1

    该用户从未签到

    这个思路好
    发布省了劲儿了
    回复

    使用道具 举报

    1

    主题

    0

    听众

    345

    积分

    黑帽学员

    Rank: 3Rank: 3

  • TA的每日心情

    2020-1-22 01:58
  • 签到天数: 115 天

    [LV.6]常住居民II

    1111111111111111111111111111
    已有 1 人评分黑币 收起 理由
    yun -4 请勿恶意灌水!

    总评分: 黑币 -4   查看全部评分

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 会员注册

    发布主题 !fastreply! 收藏帖子 返回列表 搜索
    回顶部