llante001 发表于 2017-5-15 14:49:30

可以获得大量长尾关键词,以便于做后续的研究分析。

词库清洗

虽然可以通过第三方工具可以获得大量关键词,但是你需要做数据清洗,比如过滤一些违法词,或者对关键词进行文本分析替换或删除。

如果词量巨大,动辄百万,甚至千万的时候,常规的文本编辑器都很难处理了。(比如sublime,editplus等)

这时候需要用靠编程的手段来辅助处理,或者使用一些Linux下的强大文本处理指令,如Sed或Awk。这些工具Mac也是默认支持的。

比如我需获取从300万词中提取纯关键词,就是不包含地区名(主要是城市名)、不包含”供应“、”价格“、”批发“等,最好是一个专有名词,不包含其他修饰词或组合。

比如”石家庄小松挖掘机价格“,处理后的”纯词“应为”小松挖掘机“。

这样方便以后自己拓展,比如为了抢产品的价格和报价,我们可以组合词 ”小松挖掘机价格“,”小松挖掘机报价“等长尾词,这样页面设计和SEO元素都会更加精准,页面质量也可以更高。

如果想做图片词聚合页面,使用”纯词“ 另外组合出”小松挖掘机图片“即可。

为了实现这样的效果,需要简单学一些sed命令。

删除包含某个关键词的行

比如我要删除包含:”美女“ 关键词的行。

sed -i.bak '/美女/d' filename

这个命令就可以删除词库中包含”美女“这个关键词的行,直接更新当前文件,并且对原始文件做一个备份,扩展名为.bak。(filename.bak)

关键词替换

比如我要把所有关键词中包含的”出口“换成“进口”:

sed -i.bak 's/出口/进口/g' filename

s字符代表替换,g代表全局替换,如果只替换第一个出现的“出口”,则可以去掉。

关键词删除

那删除呢?其实就是也是一种替换,那就是把符合的词,替换成空。

比如我要把所有关键词中开头包含的”供应“去掉:

sed -i.bak 's/^供应//g' filename

s字符代表替换,“^供应”代表以“供应”开头的关键词(支持正则),g代表替换所有“供应”,如果只替换第一个出现的“供应”,则可以去掉。

如果我要把所有关键词中结尾包含的”厂“去掉:

sed -i.bak 's/厂$//g' filename

“厂$”代表以“厂”结尾的关键词

根据关键词长度过滤词

feihu 发表于 2017-5-16 01:42:48

这啥啊,不懂

583558386 发表于 2017-5-16 11:27:57

我用518数据的
页: [1]
查看完整版本: 可以获得大量长尾关键词,以便于做后续的研究分析。