类型一:如果两篇文档内容和布局格式上毫无差别,则这种重复可以叫做完全重复页面。
类型二:如果两篇文档内容相同,但是布局格式不同,则叫做内容重复页面。
类型三:如果两篇文档有部分重要的内容相同,并且布局格式相同,则称为布局重复页面。
类型四:如果两篇文档有部分重要的内容相同,但是布局格式不同,则称为部分重复页面。
所谓近似重复网页发现,就是通过技术手段快速全面发现这些重复信息的手段,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。