百度算法—关键词分词算法
1.关键词分词匹配重点次序:
这是蒋鑫鹏根据SEO实际操作结合网友分享做的总结,精确度不高,但可作为参考。一般意义上的分词算法是“关键词比率”:计算该关键词在页面信息中的比重,通常包含的参数有:title(网页标题)、meta description(网页描述/摘要)、meta keywords(网页关键词)、网页H1~H6标签、锚文本(按照重点程度及页面位置排序)、内容文本(突出程度如字体、大小、颜色、周围的背景或者说文字等,一般的位置顺序是从左上到右下)、图片及其他页面文件的Html标记语言属性。http://www.yixiin.com/news/
2.关键词匹配度计算:
分词后,要对短语中的关键词进行“索库”,如果某个词在短语中与其他词相关性不大,将去除匹配,但是其他词计算匹配度时任然作为字数计算。以“百度如何排名”来分析:一般意义上,这个搜索短语被分为“百度如何排名”;“百度如何”+“排名”;“百度排名”+“如何”……:那么“百度如何排名”匹配度就是100%,紧接着就是“百度排名如何”,“如何排名百度”,“如何百度排名”,“排名百度如何”,“排名如何百度”;“百度排名”的匹配度是1/3+1/3=2/3;“如何排名”的匹配度是1/2;“百度”的匹配度是1/3……以上只是粗略的估算,具体的都多分词算法还要加入相关参数计算,如顺序优先度,倒序优先度,双序优先度,最少化切词度……(具体的算法因蒋鑫鹏学识有限,恕不能分享,在此只是一个基本思路的分析,可以供朋友们参考,另外分词中含有很多关于标点符号、空格、单字等的处理)
3.title关键词匹配度:
title中的关键词在title本身的分词匹配中的计算方式与2中提到的一样,蒋鑫鹏在此想说明两点:A.根据观察推断,百度收录快照后,对快照的存档中应该已经做好可能的分词及匹配度的数据标注(如果不是这样,那么百度检索的效率不会有这么高)B.每一次用户的检索百度都要进行分词,并依分词的结果从从档的快照中的分词标注中做最大化的匹配。
另外,Title的公认长度一般认为是不超过80个字符(包含标点及空格,折合中文汉字约为40个字),但从百度检索结果的快照标题中看,对于不同站点百度根据权重会有不同的限制,一般为60个字符,有的站能达到70个字符,超过的部分用“…”代替,但并不意味着百度不计算在内,以“www.zhibaosuv.com”来说,蒋鑫鹏再添加标题的时候将“智宝美规车SUV”放到最后,但你百度“智宝美规车SUV”的时候现实的快照标题可以正常显示“智宝美规车SUV”而将title超过显示的部分以段前段后省略的方式显示。
一般,如果没有特殊必要,建议不要超过公认的80字符,否则,不仅稀释了关键词的匹配度,还会影响搜索引擎对快照的打分。http://www.yixiin.com/brand/
发布产品的名称几摘要。
在网站运营中,未获得更多有价值的关键词的流量,智宝美规车新闻发布中,尽量采用原创的信息,并配合美观的图片及表格,以提升网页信息的可读性,同时,作者不忘将关键词在文章中以突出显示的形式和加链接做成锚文本的形式表现,更有利于网站内部链接的建设及丰富,这在操作中获得明显的搜索表现。此外,新闻的更新,边体重都是包含有限关键词的,在首页调用最新发布新闻标题的方式很好的保证了主页的更新度。