站长基础说说之解析百度的分词算法

2018-07-01 16:33:08 互联网258商务网13

核心提示：解析百度的分词算法首先，讲讲百度的分词时机或者http://www.yixiin.com/news/条件问题，是否是个中文字符串百度就拿来切一下呢

解析百度的分词算法

首先，讲讲百度的分词时机或者http://www.yixiin.com/news/条件问题，是否是个中文字符串百度就拿来切一下呢？非也，要想被百度的分词程序荣幸的切割一下也是要讲条件的，哪能是个字符串就切割啊？你当百度是卖锯条的么？

那么什么样的字符串才满足被切割的条件呢？简单说来，如果字符串只包含小于等于3个中文字符的话，那就保留不动，当字符串长度大于4个中文字符的时候，百度的分词程序才出马大干快上，把这个字符串肢解掉。

怎么证明呢？我们向百度提交“电影下载”，看看返回结果中标为红字的地方，不难看出来，查询已经被切割成《电影，下载》两个单词了，说明分词程序已经开工了，如果是比4个中文字符更长的字符串，那分词程序就更不客气了，一定大卸八块而后快。我们来看看三个字符的情况，提交查询“当然择”，看起来这个查询不伦不类，那是因为我希望看到这个字符串被切分为《当然，择》，返回结果365篇相关页面，翻到最后一页，发现标红的关键字都是” 当然择”连续出现的情况，好像没有切分，但是还不确定，那么再提交人工分好的查询“当然择”看看，返回结果1，090，000篇，基本上可以确定没有进行分词了，当然另外一种解释是：对于三个字符先切分，然后将切分后的结果当作一个短语查询，这样看到的效果和没有切分是相似的。但是我倾向于判断百度对于少于3个字符的串没有切分，奥卡姆不是说了么“如无必要，勿增实体”，干吗做无用功呢。那么如果没有切分，会有一个随之而来的问题，怎么从索引库里面提取未切分的字符串呢？这牵扯到索引的问题，我觉得百度应该采取了两套索引机制，一种是按照单词索引，一种是按照N-GRAM索引，至于索引的具体问题，以后在详细论述。

下面我们看看百度是采取的http://www.yixiin.com/spread/何种分词算法，现在分词算法已经算是比较成熟了，有简单的有复杂的，比如正向最大匹配，反向最大匹配，双向最大匹配，语言模型方法，最短路径算法等等，有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是：判断一个分词系统好不好，关键看两点，一个是消除歧义能力；一个是词典未登录词的识别比如人名，地名，机构名等。

点赞 0反对 0举报 0 收藏 0 打赏 0

更多>同类资讯

推荐图文

推荐资讯

点击排行

免责声明：本站所有信息均来自互联网搜集，产品相关信息的真实性准确性均由发布单位及个人负责，请大家仔细辨认！并不代表本站观点,258商务网对此不承担任何相关法律责任！如有信息侵犯了您的权益，请告知，本站将立刻删除。
友情提示：买产品需谨慎
网站资讯与建议：125493959@qq.com 客服QQ：2924917661

2924917661

• 站长基础说说之搜索引擎的内外部优化你知道多少	• 站长基础说说之网站百度收录需要注意的问题
• 站长基础说说之网站改版后的降权处理方法有哪些	• 站长基础说说之新手学习优化的3大步骤
• 站长基础说说之网站如何增加网站内页收录	• 站长基础说说之seo优化应该从seo的原理上出发才
• 站长基础说说之SEO新手易走进的优化几大误区	• 站长基础说说之SEO优化如何判定一个外链的价值
• 站长基础说说之蜘蛛是如何抓取页面数据的？	• 站长基础说说之百度图片的热门目录收录规则有哪