黑帽联盟
标题:
可以获得大量长尾关键词,以便于做后续的研究分析。
[打印本页]
作者:
llante001
时间:
2017-5-15 14:49
标题:
可以获得大量长尾关键词,以便于做后续的研究分析。
词库清洗
虽然可以通过第三方工具可以获得大量关键词,但是你需要做数据清洗,比如过滤一些违法词,或者对关键词进行文本分析替换或删除。
如果词量巨大,动辄百万,甚至千万的时候,常规的文本编辑器都很难处理了。(比如sublime,editplus等)
这时候需要用靠编程的手段来辅助处理,或者使用一些Linux下的强大文本处理指令,如Sed或Awk。这些工具Mac也是默认支持的。
比如我需获取从300万词中提取纯关键词,就是不包含地区名(主要是城市名)、不包含”供应“、”价格“、”批发“等,最好是一个专有名词,不包含其他修饰词或组合。
比如”石家庄小松挖掘机价格“,处理后的”纯词“应为”小松挖掘机“。
这样方便以后自己拓展,比如为了抢产品的价格和报价,我们可以组合词 ”小松挖掘机价格“,”小松挖掘机报价“等长尾词,这样页面设计和SEO元素都会更加精准,页面质量也可以更高。
如果想做图片词聚合页面,使用”纯词“ 另外组合出”小松挖掘机图片“即可。
为了实现这样的效果,需要简单学一些sed命令。
删除包含某个关键词的行
比如我要删除包含:”美女“ 关键词的行。
sed -i.bak '/美女/d' filename
这个命令就可以删除词库中包含”美女“这个关键词的行,直接更新当前文件,并且对原始文件做一个备份,扩展名为.bak。(filename.bak)
关键词替换
比如我要把所有关键词中包含的”出口“换成“进口”:
sed -i.bak 's/出口/进口/g' filename
s字符代表替换,g代表全局替换,如果只替换第一个出现的“出口”,则可以去掉。
关键词删除
那删除呢?其实就是也是一种替换,那就是把符合的词,替换成空。
比如我要把所有关键词中开头包含的”供应“去掉:
sed -i.bak 's/^供应//g' filename
s字符代表替换,“^供应”代表以“供应”开头的关键词(支持正则),g代表替换所有“供应”,如果只替换第一个出现的“供应”,则可以去掉。
如果我要把所有关键词中结尾包含的”厂“去掉:
sed -i.bak 's/厂$//g' filename
“厂$”代表以“厂”结尾的关键词
根据关键词长度过滤词
作者:
feihu
时间:
2017-5-16 01:42
这啥啊,不懂
作者:
583558386
时间:
2017-5-16 11:27
我用518数据的
欢迎光临 黑帽联盟 (https://bbs.cnblackhat.com/)
Powered by Discuz! X2.5