黑帽联盟

 找回密码
 会员注册
查看: 1431|回复: 2

[技术文章] 用python自动采集内容程序

[复制链接]
yun 黑帽联盟官方人员 

920

主题

37

听众

1364

积分

超级版主

Rank: 8Rank: 8

  • TA的每日心情
    奋斗
    2019-10-18 11:20
  • 签到天数: 678 天

    [LV.9]以坛为家II

    最近用wordpress做了一个小站,目的很简单就是要第一时间更新小说并发布到wordpress,本来是想用火车头解决的,但没有模块无赖之下,只有自己用python手写,本来是想用mysqldb直接插入的,但wordpress表单实在是有点麻烦,且远程速度有点慢。一想到python的主要思想是不要重复发明轮子,于是在pypi找到了wordpress_xmlrpc模块,主要功能就不说了

    目前wordpress_xmlrpc模块已经更新到了2.2版本,不过本人用的是1.5版本。懒的会员在centos下可以这样安装.
    Wget  https://pypi.python.org/packages/source/p/python-wordpress-xmlrpc/python-wordpress-xmlrpc-1.5.tar.gz --no-check-certificate
    tar zxf python-wordpress-xmlrpc-1.5.tar.gz
    cd python-wordpress-xmlrpc-1.5
    python setup.py install

    好了wordpress_xmlrpc模块就介绍到这儿,其它功能参考官网介绍。下面说一下程序思路。
    1、用一个记事本记录已经抓取的URL。
    2、再去抓这个页面看看,得到这个页面文章的全部URL。
    3、for一下这个页面的全部URL是否在TXT中。
    4、如果不在,就抓取这个URL的标题和内容发送到wordpress,并将URL写入txt中
    5、最后用crontab自动任务,每天定时跑。

    代码如下:(为防止某些会员不劳而获,用图片代替代码,红色部分别为网址,账号,密码,保存URL地址的txt)
    游客,如果您要查看本帖隐藏内容请回复


    当然代码有一个小问题就是没有定义类别,其实wordpress_xmlrpc也是可以定义发布类别的,只是本人比较懒就在后台撰写默认文章分类设置了一下目录。

    然后是crontab设为每小时定时更新一下。不会设置的自行脑补。
    201307152206596406.png


    0

    主题

    0

    听众

    3

    积分

    黑帽菜鸟

    Rank: 1

    该用户从未签到

    这个思路好
    发布省了劲儿了
    回复

    使用道具 举报

    1

    主题

    0

    听众

    345

    积分

    黑帽学员

    Rank: 3Rank: 3

  • TA的每日心情

    2020-1-22 01:58
  • 签到天数: 115 天

    [LV.6]常住居民II

    1111111111111111111111111111
    已有 1 人评分黑币 收起 理由
    yun -4 请勿恶意灌水!

    总评分: 黑币 -4   查看全部评分

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 会员注册

    发布主题 !fastreply! 收藏帖子 返回列表 搜索
    回顶部