站长基础说说之搜索引擎如何处理收集到的网页数据

2019-02-10 17:37:45 互联网258商务网11

核心提示：搜索引擎原理中，搜索引擎工作流程从大的方面有三点：数据采集、数据预处理、查询服务，这里和大家分享一下数据预处理，提亲说明

搜索引擎原理中，搜索引擎工作流程从大的方面有三点：数据采集、数据预处理、查询服务，这里和大家分享一下数据预处理，提亲说明的是，其中涉及一些专业的词汇，在我博客是加了锚文本的，这里没有，看不懂的可以去看原文。

http://www.yixiin.com/photo/

　　在我们所述的“数据预处理”就是主要包含四个方面：关键词提取，“镜像网页”以及“转载网页”的消除，链接分析和网页重要程度的计算。
　　关键词提取：
　　1)在每一章网页，包含了大量的和主题内容无关的内容，像版权说明等等，关键词提取的任务，就是要提取出网页源文件的内容部分所含的关键词。提取的方法：一般类似与切词，将内容切成多个词组成的数组，再取出“在”“的”等无意义的词组，确定最终的关键词。(博主联想：关键词密度，关键词加粗，定向锚文本就是更具这一原因出现，方便搜索引擎更加简单的判断关键词)
　　在后面的章节也会提到的DocView模型中会有更加详细的讲解，在关键词提取之前还有网页净化等多个步骤，出于书籍的编辑顺序考虑，在这里不详解，感兴趣的可以点击链接跳转查看：DocView模型，网页净化;
　　重复或转载网页的消除：
　　1)天网的2003统计发现：网页的平均重复率为4，到目前的2015年，这个数字肯定已经破10。对于网名来说，拥有了更多访问有用信息的机会，对搜索引擎来说，浪费了大量的搜集网页的时间，以及网络宽带资源。具体实现方法，以后再讲。
　　链接分析：
　　1)链接分析中有提到两个概念，词频(TF)：该关键词在关键词提取之后的关键词集合中的出现频率;
　　2)文件频率(DF)：该关键词在所有文件中的出现频率，在所有文件中，该关键词在多少文件中出现;
　　3)搜索引擎可以通过HTML文本标签，来确定关键词的重要性(博主联想：
　　标签的使用就是通过这个得来);指向其他文件的链接，来判断(博主联想：定向锚文本的使用)
　　网页重要程度的计算：
　　1)搜索引擎需要将用户索引的结果，以列表的形式，展示给客户，并且在展示中满足用户的搜索需求，因此“网页重要程度”的概念出现了。
　　2)判定重要性的方法：人们通过参考文献重要性的评估方式，其核心就是–“被引用的最多的就是最重要的”。这种方式，恰好在HTML中超文本链接完美体现，谷歌的PR值(引用该页面的页面概述和引用该页面的页面重要程度)就是完美展现(博主联想：发外链就是该算法的完美体现)。(PageRank算法)
　　3)和第二点出现的不同的地方在于，某些页面是被大量的指向其他页面，某些页面被其他页面大量引用，形成对偶的关系，于是HITS算法出现。http://www.yixiin.com/news/

点赞 0反对 0举报 0 收藏 0 打赏 0

更多>同类资讯

推荐图文

推荐资讯

点击排行

免责声明：本站所有信息均来自互联网搜集，产品相关信息的真实性准确性均由发布单位及个人负责，请大家仔细辨认！并不代表本站观点,258商务网对此不承担任何相关法律责任！如有信息侵犯了您的权益，请告知，本站将立刻删除。
友情提示：买产品需谨慎
网站资讯与建议：125493959@qq.com 客服QQ：2924917661

2924917661

• 站长基础说说之搜索引擎的内外部优化你知道多少	• 站长基础说说之网站百度收录需要注意的问题
• 站长基础说说之网站改版后的降权处理方法有哪些	• 站长基础说说之新手学习优化的3大步骤
• 站长基础说说之网站如何增加网站内页收录	• 站长基础说说之seo优化应该从seo的原理上出发才
• 站长基础说说之SEO新手易走进的优化几大误区	• 站长基础说说之SEO优化如何判定一个外链的价值
• 站长基础说说之蜘蛛是如何抓取页面数据的？	• 站长基础说说之百度图片的热门目录收录规则有哪