很多SEOer在Site自己网站域名的时候,会发现收录了多少多少页,但是在查看收录页面翻到最后一页,会看到一段类似这样的提示:“我们已经省略了与已显示的XX个类似条目”,这里的类似条目就是我们这里所说的重复页面!http://www.yixiin.com/spread/
什么是重复页面?重复页面就是2个URL地址对应的页面的内容却是一样,或是有非常大的相似。这样的页面就是重复页面。如果网站重复页面太多,搜索引擎收录了网站太多的重复页面,那搜索引擎就会认为网站是在作弊,就可能受到惩罚。造成出现重复页面的原因有以下几点:
第一 网站程序伪静态功能
现在很多自助建站系统都支持URL的伪静态,当我们发布一个产品或是新闻资讯页面后,会对应生成2个URL地址,一个是伪静态html结尾的URL,另外一个是动态的URL。如果搜索引擎收录了这2个的地址后,页面一样,就造成了重复页面!
第二 程序设计问题
有些网站程序为了方便查看网站后台编辑中的文章的效果,添加了预览功能。但因设计不当,导致搜索引擎依旧通过目录的索引便可发现这一存在,进而对其索引收录。
第三 网站的评论链接
这种情况出现的最多,现在很流行wordpress博客,博客评论后也会生成对应的评论后页面的URL地址,但是这个URL对应的内容跟原博文相比就只是多了评论的几个字而已,页面的相似度非常大。搜索引擎也会认为是重复页面。http://www.yixiin.com/photo/
对应解决的办法也很简单,仔细分析重复页面的链接特征,然后直接在robots文件里禁用搜索引擎蜘蛛访问动态的链接地址。这样一来可以避免重复页面的出现,还可以让搜索引擎蜘蛛抓取静态链接,让网站收录更容易。然后就是在网站内所有的锚文本中都添加标准的静态URL地址,这样搜索引擎蜘蛛就不会爬行到动态链接上。从源头上避免了网站页面重复收录的可能性!