复杂的分词方法,包括交集型歧义和组合型歧义等多种分词歧义,分词技术是搜索引擎一门比较深奥的艺术,其微妙之处在于其方法包含了字典文学与统计学。http://www.yixiin.com/quote/从字典的分词方式来看,前缀树的形式是把语句从左到右的进行扫描,遇到字典里的词就标示出来,遇到复合型关键词就找比较长的词进行匹配,并把不能识别的词分割成单个字,这就一个前缀树分词方式,后缀树分词方式与前缀树分词方式正好相反,则是通过从右向左的方式扫描。字典分词技术已经解决了大多数的分词问题,从统计学角度来看,但是随着网络的日益星期,每天都会发生不同的新词汇,字典文学的分词方式正在逐渐的受到挑战,于是统计学的分词技术则派上了战场,采用的方式就是寻找那些经常呈现的相互的可能构成一个词的字。http://www.yixiin.com/