黑帽联盟

 找回密码
 会员注册
查看: 1469|回复: 0
打印 上一主题 下一主题

[建站教程] phpcms采集设置详细教程

[复制链接]
yun 黑帽联盟官方人员 

920

主题

37

听众

1364

积分

超级版主

Rank: 8Rank: 8

  • TA的每日心情
    奋斗
    2019-10-18 11:20
  • 签到天数: 678 天

    [LV.9]以坛为家II

    位置: 内容 > 内容发布管理 > 采集管理 >

    模块常用操作
    操作名说明
    采集流程详述
    其它功能说明



    说明: 文章的采集功能是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。
    文章采集系统颠覆传统采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技 术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。  

    一、采集流程简单的讲有三个步骤:
    1、添加采集点,填写采集规则。
    2、采集网址,采集内容
    3、发布内容到指定栏目

    以采集新浪新闻(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)为例,作一下详细流程介绍。

    实例说明:

    目标:采集新浪新闻到V9系统 国际新闻 栏目中。
    目标网址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
    1、添加采集点1.1 网址规则配置


    31.jpg



    添加采集点 - 网址规则配置图1




    查看要采集的目标网址源代码,查找到要采集网址的开始点和结束点(这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址搜索范围。
    32.jpg   


    添加采集点 - 网址规则配置图2


    测试你的网址采集规则是否正确,如下图所示

    33.jpg


    1.2 内容规则配置

    内容规则这里看起来比较复杂,其实也很简单,为了便于说明,我们只采集标题、内容两个字段。采集内容网址:
    http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的内容采集规则,请你打开这个网址,然后页面空白处右键->查看源文件搜索标题和内容的开始边界。

    标题采集配置:
    从网页里取标题,并去除不需要的字符。如下图
    34.jpg

    内容采集配置:

    新浪新闻最终页,新闻内容都包含在   之间,而且这二个结点,在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图  
    35.jpg


    1.3 自定义规则

    1.4 高级配置

    可设置是否把图片下载到服务器上,是否打水印等配置。
    36.jpg



    2、采集网址,采集内容
    采集规则配好以后,即可进行网址的采集,然后进行内容的采集。
    37.jpg

    3、发布内容到指定栏目

    38.jpg

    39.jpg


    选择导入的栏目
    40.jpg


    设置 采集内容与数据库的字段对应关系.提交进行数据入库,在此期间请耐心等待, 完成后会自动转向。



    至此一个简单的采集流程就操作完成。

    帖子永久地址: 

    黑帽联盟 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
    2、本站所有主题由该帖子作者发表,该帖子作者与黑帽联盟享有帖子相关版权
    3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和黑帽联盟的同意
    4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
    5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
    6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
    7、黑帽联盟管理员和版主有权不事先通知发贴者而删除本文

    您需要登录后才可以回帖 登录 | 会员注册

    发布主题 !fastreply! 收藏帖子 返回列表 搜索
    回顶部