黑帽联盟

 找回密码
 会员注册
查看: 1874|回复: 0
打印 上一主题 下一主题

[技术文章] 百度分词技术详解

[复制链接]

895

主题

38

听众

3329

积分

管理员

Rank: 9Rank: 9Rank: 9

  • TA的每日心情
    难过
    昨天 22:31
  • 签到天数: 1652 天

    [LV.Master]伴坛终老

    一、关于中文分词:
      1.中文分词难度分析
      首先要说明下的是:普通用户的搜索与做SEO或者更大说熟悉网络搜索用户的搜索习惯是非常不一样的,而恰巧普通搜索用户是百度搜索的基础力量。在开头 赘述 这一点是为了表达其对于百度搜索算法中的中文分词的重视。因为,对于百度google这样的第二代搜索引擎来说,采用的检索技术主要是依靠关键字来 匹配的,而用户对于关键词的理解与机器程序对于关键词的理解是有很大距离的。

      在中文分词方面百度胜过了Google,这是baidu取胜google的关键因素之一,中文的分词比英文要复杂得多(同样与中文分词一样麻烦的重要 语言 还有日语、韩语、俄语,这也是Google没办法在这几个地区取胜的原因之一),在这里因为篇幅不做赘述,有兴趣的朋友可以研究一下拉丁语系(以英 文为例)的造句与中文造句的区别,中文造句不仅近义词很多,而且语序变化无常,副词太多(主谓宾之外的定状补,叹词等等)。

      简单举个例子“百度如何排名”“百度是如何排名的”“百度怎么排名”“百度是怎么排名的”“百度如何排位”“百度怎么排位”“百度按什么排名”“百度 靠什 么排名”“百度的搜索是怎么排位的”……这几个短语短句至少都包含一个意思“百度搜索结果的排名是什么规则(原理)”,除此之外,每个句子都有其他的含 义,如这些句子还包含有“怎么做百度排名(实现这个目标的方法)”“百度是怎么进行搜索排名的(原理实现的过程)”……

      拿上面的例子来说:当用户输入以上短句时(大多数情况下,普通用户把百度当做是万能的,所以才搜索SEO开来这么不符合规则的搜索行为),百度要迅速的响应出用户需要的结果,这个时候,百度面临的核心问题是:
      A.首先要知道用户是要搜什么(语义分析,见“二”);
      B.其次因为百度的检索方式目前仍然以关键词匹配技术为主,所以要对用户的搜索进行分词(下一段将分析百度如何分词);
      C.然后百度要通过分词分出的结果,去数据库中检索匹配的快照;
      D.上一步只是检索出来,还要进行第四部的排名,这个时候已经不是挑战百度的难题了(虽然在SEO看来,这一步确实是非常艰难的)
      E.第五步要将得到的结果返回到搜索页面给用户使用,并且要完成其广告的投放(百度竞价广告),并要适当推广自己的产品(百度知道、百度文库……)写的有点乱,SEO顾问在此致歉,没找到更好的陈述方式,望朋友们整理发扬光大。

      2.百度中文分词方式:
      百度对于中文的分词不仅是大量的用户搜索(这点不同于Google,百度毕竟是植根于中国文化的,对中文更了解),而且还有庞大的中文词典数据库作支 撑, 并且动态加入了搜索热词,搜索行为造词等技术,【从近期百度算法的调整看,百度比以前更加尊重用户的搜索行为,就是用户的输入为首要,百度纠正次要,这点 那很重要哦】下面以实例来说,用户搜索“百度如何排名?”时的分词:

      A.自然分割:包括标点符号、空格引起的分割,这是首要因素,比如或者“百度 如何排名”这样的搜索行为会被百度首先划分为“百度”、“如何排名”,这一点是肯定的,要理解用户搜索的行为意图,首先是要尊重用户的搜索行为;(这是 SEO顾问根据实战中的观察总结出的,做SEO的很多朋友可能没注意到,在此提个醒)

      B.中文词库分割:不难理解,“百度如何排名”将被分为“百度”“如何”“排名”这几个词,因为这是中文词典里存在的词,百度有庞大的中文词典库支撑,这个不是难度;

      C.分词组合分词:B中的分词显然是不够的,要更能理解用户意图,必须保证语义连贯,那么那三个词可以组合成“百度如何排名”;“百度如何”+“排 名”; “百度排名”+“如何”;“如何排名”+“百度”以及这几个词颠倒的组合,重要程度按照顺序优先原则,紧接着是倒序和双向序列的分词组合,分析切分有个基 本的原则就是最少的切分。
      以上三点是通常意义上的分词,除此之外,还有更麻烦的分词需要百度处理,见后几点。

      D.分字:如果用户搜索“百 度 如 何 排名”的时候,百度也是无可奈何的,因为你不能判断出来用户就是在搜索“百度 如何 排名”,还得尊重用户搜索行为,所以,不得不进一步将中文词进行分字:“百”“度”“如”“何”“排名”,然后在进行组合分词,组成不同的词组去数据库中 匹配。

      E.别音字/错别字:如有人搜索“白度如何排名”实际上是误将“百度”打成“白度”,那么百度还要纠正这种错误,但近期的调整看,百度不像以前通过词 库近 义匹配来进行纠错【而更多的是以用户搜索后浏览的行为积累的数据来为纠错做准备】(如搜索“白度”的很多用户最后花更多时间在“百度”关键词页面上,那么 百度以后对于“白度”的搜索纠错会偏重到“百度”上!

      当然,这个词是举例说明,实际上百度搜索“白度”不是这样的,例子可以参看百度的“美规车”查看,百度会提示或者说试探你“您要找的是不是: 美规车”),此外,百度对于纠错通过搜索下拉框相关词推荐、搜索页面底部“相关搜索”、百度知道(用户量很大,是百度搜索的重要补充)来进行纠错数据的统 计与纠错引导。

      F.新词:新词的来源一般有两种:a.近期流行语造成,这个百度的数据库会根据用户搜索行为积累的数据以及网络热词监测数据来进行调整补充到词库;b.语言新词/用户造词,这个主要是靠搜索行为累积的数据调整,也针对部分语言新词人工作补充。

      再次补充说明一下,百度其实很累的,它对用户的每一次搜索行为都要进行统计(当然是机器程序记录的方式):一般主要记录搜索的关键词、到访的页 面及 到访方式(一般都是链接)、各页面停留时间(之前不容易读取到,现在百度通过浏览cookis、百度账户、IP记录、百度统计【如果网站装了百度统计的程 序,实际上百度很聪明,用各种方式想尽办法进入到网站,比如最近流行的百度分享按钮,这个工具实际上就是最大的间谍】等大量辅助工具来统计),一般测算是 根据搜索后到访的百度提供的快照页面的浏览行为(先打开哪个,然后打开哪个,在哪里停留的时间长,最后从哪里离开百度来实现,百度对于一个网页对用户是否 有用的观点:在该页面停留时间最长,并最终在此页面浏览完毕后离开百度为首要标准,其次还有在这些页面的互动程度所起的因素。

      二、关于语义分析:
      其实这段要说的在上一段已经都提到,列出来无非是将“语义分析”这一检索行为与“分词”区别开来,语义分析与分词是相辅相成的,语义分析更多的建立在 分词 与用户浏览行为习惯数据的研究结论基础之上,如前所述,百度通过各种方式大量统计用户的行为并针对这些行为及所用的关键词及输入方式索索的统计数据进行分 词的支撑与分词的匹配。

      毕竟,再怎么算,那么多网页、每天数十亿次的检索行为,百度还是难以计算出来的(百度正在通过不断改进方式及完善机器算法来努力实现这一浩大工程), 目前 主要采用的是针对热门搜索的抽样统计与其他搜索的随机统计来实现搜索语义分析(此为SEO顾问根据实战中的观察做的假想推断)。


      百度最难以捉摸透的与其说是排名算法,不如说是语义分析算法,因为与SEO搞不懂百度算法一样,百度同样搞不懂搜索用户的搜索意图(所以百度一直在研 究, 一直在调整,一直在完善,就像SEO一直在研究,一直在调整,一直在完善一样的道理)。捉摸不透是一个原因,更重要的是这些计算不仅仅是对于文字及分词、 匹配度的研究,更是通过统计学、线性数学、逻辑学、行为学、心理学等众多的学科的精华计算方法结合在一起设计出的算法结构,并不断修补完善的,说到这个算 法,百度有一个形容“海量基础算法”,更不用提每种算法的学科本身的难度了,这就是苦逼的SEO迟迟不能搞懂百度算法的根本原因,当然,作为苦逼的 SEO,同样也是搞不懂的,如果能搞懂的,大多都是数学或计算机天才或顶尖人才,早都去搞自己的研究或者发明去了,还至于追在百度后面吹毛求疵?

      更何况,百度本身对于搜索结果的“人为干涉”及“垄断”都带来各种斥责,更何况SEO为了一己之利不断刷排名给用户推荐低质量的信息,那就更遭懂得并 理解 搜索算法的牛人看不起了……所以看到这里,如果你觉得你很牛,就不要做SEO了,如果作为SEO你明白了作者写此篇文章的意图,那你就站在SEM或 者网络运营、网络营销的高度来看待SEO,而不是为了半夜趴在电脑前发外链混营生而SEO。

      扯远了,回归正题,做不到像百度一样设计算法的那个能耐,如果说还能从语义分析中挖掘点对SEO有帮助的东西,那么建议可以去研究研究你正在做 的优 化的相关词的用户搜索习惯,比如,最近给上海智宝美规车做网络运营服务期间,发现“美规车”这一词正在受到越来 越多的关注,而做这个词优化的很多SEO或者说站长都顶住“美规车”一个词做,而这个词用户搜索的时候,有可能衍生为“美规汽车”“美规汽车SUV”“美 规车SUV”“美规SUV”“美规车销售”“美规车经销”“美规车经销商”“美规汽车经销”“美规汽车销售”“美规汽车进口代理”等众多的派生词,甚至 “美规车哪里买”“上海哪儿销售美规车”这样的更具有成交意义的长尾关键词,如果理解用户的搜索意图,再针对性的做SEO,这样取得的效果会更好。

      三、关于关键词匹配度:
      1.关键词分词匹配重点次序:
      这是根据SEO实际操作结合网友分享做的总结,精确度不高,但可作为参考。一般意义上的分词算法是“关键词比率”:计算该关键词在页面信息中的 比 重,通常包含的参数有:title(网页标题)、meta description(网页描述/摘要)、meta keywords(网页关键词)、网页H1~H6标签、锚文本(按照重点程度及页面位置排序)、内容文本(突出程度如字体、大小、颜色、周围的背景或者说 文字等,一般的位置顺序是从左上到右下)、图片及其他页面文件的Html标记语言属性。

      2.关键词匹配度计算:
      分词后,要对短语中的关键词进行“索库”,如果某个词在短语中与其他词相关性不大,将去除匹配,但是其他词计算匹配度时任然作为字数计算。以“百度如 何排 名”来分析:一般意义上,这个搜索短语被分为“百度如何排名”;“百度如何”+“排名”;“百度排名”+“如何”……:那么“百度如何排名”匹配度就是 100%,紧接着就是“百度排名如何”,“如何排名百度”,“如何百度排名”,“排名百度如何”,“排名如何百度”;“百度排名”的匹配度是1/3+1 /3=2/3;“如何排名”的匹配度是1/2;“百度”的匹配度是1/3……以上只是粗略的估算,具体的都多分词算法还要加入相关参数计算,如顺序优先 度,倒序优先度,双序优先度,最少化切词度……(具体的算法因学识有限,恕不能分享,在此只是一个基本思路的分析,可以供朋友们参考,另外分词中含 有很多关于标点符号、空格、单字等的处理)

      3.title关键词匹配度:
      title中的关键词在title本身的分词匹配中的计算方式与2中提到的一样,在此想说明两点:A.根据观察推断,百度收录快照后,对快照的 存档 中应该已经做好可能的分词及匹配度的数据标注(如果不是这样,那么百度检索的效率不会有这么高)B.每一次用户的检索百度都要进行分词,并依分词的结果从 从档的快照中的分词标注中做最大化的匹配。

      另外,Title的公认长度一般认为是不超过80个字符(包含标点及空格,折合中文汉字约为40个字),但从百度检索结果的快照标题中看,对于不同站 点百 度根据权重会有不同的限制,一般为60个字符,有的站能达到70个字符,超过的部分用“…”代替,但并不意味着百度不计算在内,以 “www.zhibaosuv.com”来说,再添加标题的时候将“智宝美规车SUV”放到最后,但你百度“智宝美规车SUV”的时候现实的快照标 题可以正常显示“智宝美规车SUV”而将title超过显示的部分以段前段后省略的方式显示。

      一般,如果没有特殊必要,建议不要超过公认的80字符,否则,不仅稀释了关键词的匹配度,还会影响搜索引擎对快照的打分。

      【做title的技巧】,写到此,顺便分享下的一点技巧,企业网站因为页面少,一般容易获得排名的主要是主页,所以主页的title一定要精心 布 置,如果实在放不下的关键词放到description中靠前的位置,另外,建议将站点名称简写放在后面,以保证重点关键词靠前而获得较好的匹配度,站点 名称用“【】”起来,虽然浪费了4个字符,但是在搜索结果中会比较突出,能吸引用户的注意而提高网站知名度和进入率。

      顺便提下,在操作中发现,如果头部标签更新频繁过度会被降权处理(一般头部修改后会进入快照观察期,搜索结果对于修改后的标题显示会延迟1~3 周不 等,具体根据不同关键词在页面内容中的体现更新及外部链接锚文本中包含该关键词的更新度不等而延迟时间不等),头部标签一月内修改2次以上,百度会直接随 机抓取页面内的文本作为描述摘要。Google对于Title更新频繁的页面,会直接抓页面布局中重点体现的某段短语做标题。

      4.description关键词匹配度:
      与title的计算方式类似,只不过description不会被百度像title一样被分词,而只作为title中关键词和keyword中的关键 词以 及给给页面带来流量较大的关键词的匹配计算,关键词在description中的匹配度按照顺序优先原则,以关键词在description总字符中的占 有比率及连贯度计算。

      description是对页面的摘要说明,做SEO的童鞋务必遵守规则,不要将无关信息或者说页面文本中不包含的关键词堆叠到此,以免降分。

      description公认的允许最大字符量为200,百度快照显示的一般为140字符左右,建议不要超过160字符,因为这样不仅稀释关键词 匹配 度,而且百度最近的算法调整,对description超出快照显示的部分将不再做关键词匹配。同样以智宝美规车来说 明,将美规GMC放在描述摘要最好,最近算法调整后不做显示了(当然可能是个案,仅供参考)。

      5.keywords关键词匹配度:
      keywords对于百度来讲,貌似本身不作为匹配,但是有一点百度很在意:不要将页面没有的关键词加到keywords中,如果这样,有可能会被认为是在作弊,这点对于Google来说更是如此,Google对于keywords作弊比百度严格的多。

      keywords一般公认的不超过100字符,这点,的理解是,对于Google来讲:keywords一定不要过多,要与页面匹配,一般页面 能容 忍的关键词也就十多个到头;对于百度来讲,建议keywords的设计根据百度权重(可用站长工具或爱站网测试)关键词来设计,有权重的词,可以加到 keywords中。

      对于企业网站而言,因为Title和description限制而字数有限,无法容纳公司全称,这个时候可以考虑将公司全称及简称在keywords中体现一下,因为页面版权信息中一般会包含公司名和简称。

      6.页面内容中的关键词匹配度:
      页面内容不做分词计算,但标签中的分词和快照中存档的分词在页面所占比列计算中会对页面中包含的关键词进行匹配并计算次数及在整个页面字符中所占比例。

      页面的关键词重要程度首要的是H标签和其他重要的标签,当然在百度快照中主要是按照页面世家显示的文字为标准,一般链接锚文本中包含的关键词、页面突 出位 置出现的关键词、以突出的方式(字体、颜色)展示出的关键词会比较重要,这点要根据具体页面作分析,SEO朋友们可以在检索关键词结果中直接查看百度快照 中显示的关键词匹配程度,黄色最高,其次为红色和蓝色、绿色。

      快照是存放在百度数据库中的静态网页,不是真实的网页,所以就有快照更新一说。从快照页面源代码中可以看出,百度快照中只是记载了页面的基本代码及文本文件,并为存储照片及其他文件,现实中的快照中的图片是从页面文件收录快照时记录的文件地址调用过来的。

      百度快照的存在,才是大家都关心百度快站更新的根本原因,因为如果快照不跟新,获得排名的机会就会变少,这个时候的你的网站的快照在百度快照数据库中 就像 一个弃婴……写到此,作者再次将自己的观察提醒一下:以前大家都认为静态页面更受搜索欢迎,随着2.0的不断发展及互联网社交化的趋势,似乎这点正 在被改写并朝着相反方向发展,静态页面、伪静态开始被搜索程序嫌弃……是这样理解的,如果页面是静态的,那么搜索引擎更容易认为你的页面内容更新会 比较慢,这样自然影响收录频率,蜘蛛到访的频次也就降低了……

      四、关键词匹配操作——实例分析
      以上大致讲述了SEO对于百度搜索中文分词及语义分析、关键词匹配的皮毛理解,下文通过实例重点讲一下如何让网页与关键词进行匹配。通 常,SEO一 般接到的任务都是客户/领导甩过来一个站,指定几个关键词,然后放手去做,除了在头部标签加上关键词,大量采集一些关键词相关的文章,剩下的貌似都是用各 种工具进行大量的“外部链接生产”工作了,一时间,包含“www.zhibaosuv.com”的乱七八糟的信息铺天盖地涌向各大论坛、博客、店铺、分类 信息……(当然,也很低俗,做外链也大致是这样操作的,只不过基本不用工具,尽量减匹配度高相关性强的站点,针对性地发外链)。

      实际上,更好的SEO方式,是在进行排名优化操作前,根据用户的需求,做调查分析统计,然后依次配合客户其他需求,策划网站方案,将SEO的意图在建 设网 站众志传媒出品)的过程中很好地融入,这样SEO做起来不累,也容易取得较为理想的效果,以上文中提到的 服务中的客户上海智宝名车的例子来说,建站之初,众志传媒根据客户专营进口美规车SUV这一特点,通过百度搜索指数、Google关键词榜单、百度相关搜 索推荐、站长工具(tool.chinaz.com)进行过较为详尽的统计分析,最后根据客户主营的美规奔驰、美规宝马、美规奥迪、美规卡宴、美规路虎、 美规福特、美规丰田、美规林肯、美规GMC这些品牌车,确定了上述关键词(【特别说明,关键词的策划还要考虑百度竞价竞争程度、页面收录数量、首页结果页 的快照更新程度及百度全汇总,以此来确定难易程度,结合预算与工作量来确定】)。

      在网站设计工程中,众志传媒将产品展示这一栏目设计为“美规车频道”,并依次将上述关键词作为分类,并以下拉菜单的方式实现(提醒:导航条的锚 文本 出现的关键词是很重要的,而现在做优化,用户对于关键词数量要求越来越多,结合这一情况,建议首选将导航做成页面左侧的列表通道【实战中发现很有 效,以三禾彩钢为例】,其次考虑希下拉表菜单及最近流行的页面底部行列式导航),在主页内容安排有限的前提下,在底部将关键词对应的栏目页URL做了辅助 导航,在首页文字信息中恰当地将锚文本融入,给主要的图片做了ALT属性等。

      在title设计中,当然“美规车”首选,其次根据关键词顺序排列优先的原则,将主页title设计为“美规车_美规奔驰,美规宝马,美规路虎,美规 卡 宴,美规奥迪【智宝美规车SUV】”,因为其他几个关键词无法挤在title中,检索量及价值也不是很高,就放在了description中,并且在 description开头中加入“上海智宝名车公司,顶级美规车进口商,豪华名车SUV美规版经销专卖”,即显示了公司名称,同时又突出了公司特点并在 此体现了核心关键词“美规车”,接下来的“美规宝马X5X6,美规奔驰ML/GL系列,美规保时捷卡宴,美规奥迪Q7,美规路虎揽胜极光,美规林肯外交 官,美规福特,美规丰田,美规GMC。”是对重点产品型号关键词的体现,如“美规宝马X5”,“美规奥迪Q7”等。 毕竟页面的头部文件字符限制,导致很多有限关键词不能体现,对于规车这个网站,众志传媒做了内链的优化及各个页面的 代码优化工作,完善了站内所有页面的头部标签及页面的其他标签、链接,保证每个页面名称都不重复。以美规车频道 “http://www.zhibaosuv.com/Brand.asp”这个页面来说,title采用了“美规车,美规奔驰配置,豪华车SUV美规版 价格_智宝美规车频道”,核心关键词、页面重点关键词、站点名称及页面名称都在title中有良好的表现,并且栏目页面对应的产品子页面都是后台发布新产 品生成的,每个页面的标题及描述摘要都是动态调用了发布产品的名称几摘要。

      在网站运营中,未获得更多有价值的关键词的流量,智宝美规车新闻发布中,尽量采用原创的信息,并配合美观的图片及表格,以提升网页信息的可读性,同 时,作 者不忘将关键词在文章中以突出显示的形式和加链接做成锚文本的形式表现,更有利于网站内部链接的建设及丰富,这在操作中获得明显的搜索表现。此外,新闻的 更新,边体重都是包含有限关键词的,在首页调用最新发布新闻标题的方式很好的保证了主页的更新度。

      写的有点累赘,百度的算法不是一两局说得清楚的,众志传媒网络营销顾问在整理发布的,也只是皮毛,从SEO的价值来讲,是一个理解SEO及百度关键词 匹配 计算法的分析思路
    帖子永久地址: 

    黑帽联盟 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
    2、本站所有主题由该帖子作者发表,该帖子作者与黑帽联盟享有帖子相关版权
    3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和黑帽联盟的同意
    4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
    5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
    6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
    7、黑帽联盟管理员和版主有权不事先通知发贴者而删除本文

    勿忘初心,方得始终!
    您需要登录后才可以回帖 登录 | 会员注册

    发布主题 !fastreply! 收藏帖子 返回列表 搜索
    回顶部