我们在做搜索引擎优化前,先问问自己,你了解搜索引擎工作原理吗?不了解,你凭什么接单子,凭什么给人家做优化,凭什么认定靠搜索引擎优化就能混一口饭吃?直到目前为止,仍然有大量的SEO工作者,把搜索引擎优化等同于发帖子,做推广,带外链。http://www.yixiin.com/quote/有多少人会去深究,我们为什么要去做外链,又有多少认定自己是一名SEO工作者的同时,弄懂的搜索引擎优化的原理。之前接触了一些搞培训的,当某些话都说不流利的人在YY上把搜索引擎工作的原理按着稿子念一遍时,底下多少学员就认为,哦…这是位高手,这钱花得值了。今天,我花了点时间整理了一下相关资料,,带大家认识一下搜索引擎是怎么工作的。
首先,搜索引擎工作流程大致可以分为三个步骤:①抓取、②索引、③排序。上面这句基本是一句废话,大家对搜索引擎如何工作的认识基本上也就停留在这个层面上。再细究下去,我们不应该只是知道搜索引擎的工作过程就是先抓取再索引最后排序,我们应该去研究搜索引擎的抓取策略(也叫爬行策略)、索引策略、排序策略:
① 搜索引擎的抓取策略
1,搜索引擎爬行策略的基本法则:深度优先,广度优先,只抓相对重要的页面。
2,如何吸引蜘蛛,包括网站页面权重,更新,外链,与首页距离。
3,爬行时的重复内容检测,百度检测到40%重复内容,大部分内容会被删除。
4,爬行过的页面会被建立成地址库。
5,避免蜘蛛陷阱,例如flash,session id,框架,跳转,动态url,js链接,登录,无限循环,强制使用cookie。
②搜索引擎的索引策略
1,提取网页文本:去停止词。如中文的“的”“得”“啊”等不影响语义的字。
2,网页降噪:提取主内容,消除公共内容,如导航文字、版权信息等,这个我们可以用数学的约分去理解,即消除公约数。(我在之前的文章中有提到过,全站链接是不传递任何权重的,就是因为全站链接会被直接降噪掉。)
3,消除重复:上面的约分是针对各个网页而言,这一步骤,其实也可以用约分去理解,只不过它针对的是一个网页的内容,消除重复的内容,特征字符串识别。
4,数据统计:中分词,字典匹配,得出数据量。
5,关键词提取:提取文本关键词,即文本中出现频率最高的词。
6,正向索引。
7,倒排索引。
8,链接关系计算,主要以Google PR值为主。
http://www.yixiin.com/sell/
③查询排序
初始字集选择:经过索引策略的过滤,到这里的文本已经想到少了,所以加入计算的字集量是很少的,然后搜索引擎会根据链接权重的高低,计算出排名,而不是内容的好坏。