RELATEED CONSULTING
相关咨询
选择下列产品马上在线沟通
服务时间:9:30-18:00
你可能遇到了下面的问题
关闭右侧工具栏

技术支持

谷歌推广 > 技术支持 > 谷歌推广 >

什么是搜索引擎中文分词技术原理

  • 作者:谷歌推广
  • 发表时间:2020-01-24 04:50
  • 来源:迅龙网络

       
       很多从事seo优化工作的朋友对搜索引擎分词比较感兴趣,因为如果懂得了搜索引擎中文分词的原理,掌握了一定的搜索引擎分词技术的话,对于网站seo优化的长尾关键词布局是非常有帮助的,今天就来和朋友们聊聊什么是搜索引擎中文分词技术。一般来说分词的方法迅龙网络-外贸推广有两种形式,一种是基于字符串匹配的分词方法,另一种是基于统计的分词方法。

什么是搜索引擎中文分词技术原理

1、基于字符串匹配的分词方法是按照匹配方向不同,分为正向匹配、逆向匹配和最少切词,同时还可以将这三种切词方法综合起来使用,也就是说可以通过正向最大匹配、逆向最大匹配、正向最小匹配、逆向最小匹配来进行分词。

 

A、正向最大匹配的分词原理:假设字典中最长的词语字数为M个,先根据汉语的标点符号及特征词把汉语句子切分成若干短语,然后去取短语的前M个字,在字库里面查找是否存在这个词语,如果存在的话,短语就去掉这个词;如果不存在的话,就去掉这M个字的最后一个字,接着检测剩下的词是否是单字,若是则输出这个字并将这个字从短语中去掉,若不是则继续判断字库中是否存在这个词。就这样反复循环检测,直到输出一个词,然后继续取剩余短语的前M个字反复循环,这样就可以将一个短语分成词语的组合了。这样说可能很多朋友不是很好理解,那么就用一个例子来说明一下吧,以“我是一个好人为例子”,假设字典中最长词语字数为3个,正向最大匹配顺序为:a、取出短语“我是一”,检查“我是一”是否在字典中存在或是一个单字,处理方式是去掉最后面的“一”字;b、检查短语“我是”是否在字典中存在或者是一个单字,处理方式是去掉“是”字;c、检查“我”字是否在字典中存在或是一个单字,因为“我”是一个单字,所以将“我”字输出;d、然后在继续取词“是一个”,检查“是一个”是否在字典中存在或是一个单字,处理方法是去掉最后面的“个”字;通过这样的反复检查最后输出结果为我、是、一个、好人。

 

B、逆向最大匹配的分词原理:是以句子结尾处开始进行分词的方法,逆向最大匹配分词技术最大的一个作用是用来消歧。比如“某培训线下聚会在某城市举行”正向最大匹配的分词结果肯定是某、培训、线、下、聚会、在、某城市、举行,这样的分词结果肯定是非常不如人意的。采用逆向最大匹配的分词技术却可以更大程度的满足句子的本意,例如设定一个分词节点大小为6,那么“在某城市举行”中很显然“举行”是会被分词出来的,最后剩下的是“聚会在某城市”。正向最小匹配和逆向最小匹配一般来说是很少用到的,实际上使用中逆向匹配的精准度要高于正向匹配度。

 

2、基于统计分词技术的原理,直接调用分词词典中的若干词进行匹配,同时也使用统计技术来识别一些新的词语,将所有的统计结果匹配起来发挥切词的最高效率。分词词典是搜索引擎判断词语的依据,基本上收录了汉语词典当中所有的词语。如我们在搜索引擎当中输入“我要减肥了”,“减肥”两个字就会被判定为一个词语。现在网络上经常会出现新造的网络流行词语,比如“神马”、“犀利哥”、“浮云”等等,这样的词肯定也会被搜索引擎慢慢收录,并加入到分词词典当中,这也是分词词典为了满足用户需求而不断的进行更新的比如结果。

     以上是迅龙网络-外贸推广所总结的经验,希望能帮到您,让你对谷歌推广更详细的了解,选择一个好的推广平台,更多了解进入迅龙网络-外贸推广

上一篇:SEOer如何摆脱苦逼的高不成低不就的尴尬境地 下一篇:海外推广应如何做谷歌seo优化