当前位置:100EC>电商人物>幻影CEO:浅析中文分词算法
幻影CEO:浅析中文分词算法
发布时间:2011年03月23日 09:18:51

(电子商务研究中心讯)  分词算法以前偶尔也懂些,但是懂的不透彻,最近看了很多相关的书,然后去互联网上又学习了一部分,算是有了个大概的了解。其实了解分词算法无论对于个人站长一些中小型企业,都十分有帮助。通过这些词的拆分,能让我们对关键词的把握更加的精准。好了,下边开始今天的正文,如果有不对的的地方,还希望大家多指正。

  通常的分词算法往往是针对中文搜索引擎而言,对于Google则不存在,在百度和Google上搜索同样一个关键词或者短语,返回的结果是不同的,这不仅仅是算法不同或者技术不同的原因,更多是因为分词算法的存在。百度会根据用户搜索的关键词去进行拆分,而Google更多地是把结果直接返回。

  不论对于英文还是中文,搜索引擎索引页面都是以词为基础的,由于中文的博大精深,和英文单词之间往往相差很多。有时同一句话,标点符号的位置不同,音调不同,语义就完全的不同,而英文则不存在这样的问题,英文更多的是把单词进行拆分。下边给大家介绍我对中文分词算法的一些理解。

  一般中文分词分为基于词典和统计两种匹配,通常两种方法并不是单一存在着,而是在混合使用。

  首先是基于词典的匹配方法,根据用户搜索的词语,搜索引擎会把这些词语与自己词典中的词条进行匹配,如果匹配成功,就切分出一个单词。同时根据方向的不同,分为正向和逆向两种匹配。在正向匹配中,按照词语长度的不同又细分为最大匹配和最小匹配。这种基于词典的匹配很大程度上取决于词典的完整性以及更新情况。

  基于此,作为站长,我们无论选择首页的目标关键词还是内容页的长尾关键词,都应该根据这个原理,不要人为的造词,如果你的词语不是大众经常搜索的,也不是人们默认的词,那么在搜索时就不会被返回,所以在选择关键词的时候,不能想当然,要有准确的判断。

  其次是基于统计的分词方法,搜索引擎会进行大量的计算,包括字与字相邻的概率,某个短语出现在什么地方最多,用户搜索某个短语或者词的时候回寻找什么样的内容,这些都是搜索引擎基于判断的依据。这种方法有明显的优点,就是对新出现的词有更快的反应,比如当一个新闻出现的时候,如果大家都搜索这个新词语,而百度判断不出来,不能给予正确的搜索结果,那么用户就不会买搜索引擎的账。

  基于此,我们应该联想到SEO中很重要的一点,那就是相关性。比如A5这样一个词,我们都知道是代表Admin5站长网,但是刚开始可能搜索引擎并不知道,如果大家搜索的多了,在不同的地方被提及的多了,那么搜索引擎就会判断出A5这个词应该和站长有着某种联系。因此,我们做优化网站的时候也要注意相关性,和相关性的网站做友情链接,或者是发布相关性的内容,都能提升网站在该领域的权威性,当用户搜索的时候,就能够更靠前、有更多的机会被搜索引擎展现。

  好了,本文就到这里吧,中文分词算法是搜索引擎的一个特色地方,他针对的是自己的词库和更新率。除了上边提到的页面相关性以及关键词选择要遵循大众搜索习惯之外,还应该注意对词的特殊对待,比如加粗,加黑或者使用H标签。希望站长通过此篇文章对中文分词算法有个更加深入的了解,如果有不对的地方,也欢迎指正。(文/幻影CEO)

网经社联合A股上市公司网盛生意宝(002095.SZ)推出消费品在线供应链金融解决方案。该产品具有按需提款、按天计息、随借随还、专款专用、循环信用贷、全线上流程操作等特点,解决消费品供应链核心企业及下游经销商/网店因库存及账期造成的流动性差“痛点”。》》合作联系

网经社“电数宝”电商大数据库(DATA.100EC.CN,注册免费体验全部)基于电商行业12年沉淀,包含100+上市公司、新三板公司数据,150+独角兽、200+千里马公司数据,4000+起投融资数据以及10万+互联网APP数据,全面覆盖“头部+腰部+长尾”电商,旨在通过数据可视化形式帮助了解电商行业,挖掘行业市场潜力,助力企业决策,做电商人研究、决策的“好参谋”。

【投诉曝光】 更多>

【版权声明】秉承互联网开放、包容的精神,网经社欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源网经社;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至NEWS@netsun.com,我们将第一时间核实、处理。

        平台名称
        平台回复率
        回复时效性
        用户满意度
        微信公众号
        微信二维码 打开微信“扫一扫”