1.什么是搜索引擎?
通常我们称之为“蜘蛛”,它的作用是抓取网页,是一种程序。
那么蜘蛛是怎么到这个网站的呢?通过可以点击的链接(外链、内链、锚文本...)http://www.yixiin.com/sitemap/index-htm-mid-5.html
2.流程
蜘蛛从索引区出发抓取网页,将抓取的网页放到临时数据库进行筛选处理,不符合规则的清理掉,
符合规则的进入索引区,最后进行分类,归档,排序,然后将结果反馈给用户.
1.抓取网页:1.蜘蛛(spider)
2.抓取规则:深度优先、广度优先,一般综合
2.处理:为什么要过滤?1.存在大量无价值页面、死链接、欺骗页面
2.节省搜索引擎工作时间、服务器资源
3.页面质量参差不齐
3.索引:质量较高页面
4.提供检索服务:展示在搜索结果中1.收录2.排序