黑帽联盟

 找回密码
 会员注册
查看: 1848|回复: 2
打印 上一主题 下一主题

[其它] 可以获得大量长尾关键词,以便于做后续的研究分析。

[复制链接]

5

主题

0

听众

39

积分

黑帽菜鸟

Rank: 1

  • TA的每日心情

    2020-6-22 22:06
  • 签到天数: 46 天

    [LV.5]常住居民I

    词库清洗

    虽然可以通过第三方工具可以获得大量关键词,但是你需要做数据清洗,比如过滤一些违法词,或者对关键词进行文本分析替换或删除。

    如果词量巨大,动辄百万,甚至千万的时候,常规的文本编辑器都很难处理了。(比如sublime,editplus等)

    这时候需要用靠编程的手段来辅助处理,或者使用一些Linux下的强大文本处理指令,如Sed或Awk。这些工具Mac也是默认支持的。

    比如我需获取从300万词中提取纯关键词,就是不包含地区名(主要是城市名)、不包含”供应“、”价格“、”批发“等,最好是一个专有名词,不包含其他修饰词或组合。

    比如”石家庄小松挖掘机价格“,处理后的”纯词“应为”小松挖掘机“。

    这样方便以后自己拓展,比如为了抢产品的价格和报价,我们可以组合词 ”小松挖掘机价格“,”小松挖掘机报价“等长尾词,这样页面设计和SEO元素都会更加精准,页面质量也可以更高。

    如果想做图片词聚合页面,使用”纯词“ 另外组合出”小松挖掘机图片“即可。

    为了实现这样的效果,需要简单学一些sed命令。

    删除包含某个关键词的行

    比如我要删除包含:”美女“ 关键词的行。

    sed -i.bak '/美女/d' filename

    这个命令就可以删除词库中包含”美女“这个关键词的行,直接更新当前文件,并且对原始文件做一个备份,扩展名为.bak。(filename.bak)

    关键词替换

    比如我要把所有关键词中包含的”出口“换成“进口”:

    sed -i.bak 's/出口/进口/g' filename

    s字符代表替换,g代表全局替换,如果只替换第一个出现的“出口”,则可以去掉。

    关键词删除

    那删除呢?其实就是也是一种替换,那就是把符合的词,替换成空。

    比如我要把所有关键词中开头包含的”供应“去掉:

    sed -i.bak 's/^供应//g' filename

    s字符代表替换,“^供应”代表以“供应”开头的关键词(支持正则),g代表替换所有“供应”,如果只替换第一个出现的“供应”,则可以去掉。

    如果我要把所有关键词中结尾包含的”厂“去掉:

    sed -i.bak 's/厂$//g' filename

    “厂$”代表以“厂”结尾的关键词

    根据关键词长度过滤词
    帖子永久地址: 

    黑帽联盟 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
    2、本站所有主题由该帖子作者发表,该帖子作者与黑帽联盟享有帖子相关版权
    3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和黑帽联盟的同意
    4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
    5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
    6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
    7、黑帽联盟管理员和版主有权不事先通知发贴者而删除本文

    52

    主题

    2

    听众

    310

    积分

    黑帽学员

    Rank: 3Rank: 3

  • TA的每日心情
    奋斗
    2019-9-27 16:27
  • 签到天数: 258 天

    [LV.8]以坛为家I

    这啥啊,不懂
    回复

    使用道具 举报

    2

    主题

    0

    听众

    114

    积分

    黑帽新手

    Rank: 2

  • TA的每日心情
    擦汗
    2019-8-19 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    我用518数据的
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 会员注册

    发布主题 !fastreply! 收藏帖子 返回列表 搜索
    回顶部