在我们通常对其网站进行优化当中我们可以了解到,搜索引擎极其不喜欢重复的内容(这也是原创内容盛行的原因之一),对于这点而言,搜索引擎也给予了明确的警告与建议,但是为什么我们的站点还是会有这样重复收录的现象呢? http://www.yixiin.com/quote/
1、搜索引擎自身原因,因为大家都知道搜索引擎收录是人为编写的一套程序,是程序都会有疏漏,无法达到充分的识别吗,所以极有可能导致我们的站点多个URL地址当中内容重复进行收录的状况。
2、网站程序设置问题,有很多的网站程序在我们设置的过程当中,为了可以达到“预览”的效果,在后台产生了动态页面。但是因为忽略的原因,直接导致搜索引擎通过蜘蛛爬行抓取目录的索引从而导致内容重复收录。
3、网站自身模板问题,有些站点在模板制作的过程当中会经常的忽略到这一相关问题,最后在我们网站模板完工之后,在应用该模板的时候才发现站点发布内容过程当中既存在动态页面,又存在了静态的页面,这样怎能不被重复收录呢?
(二)内容被搜索引擎重复收录的后果。
在我们优化网站的时候,经常会去尽可能的避免页面重复收录的状况。但是如若已经被搜索引擎收录,那又会对我们的网站有怎样的影响呢?
一般来讲,在搜索引擎对我们的站点内容之后,都会将动态的页面进行剔除处理,但是如果我们的网站经常的出现这样的状况,长久的被搜索引擎收录、剔除,如此循环。那么终究会导致搜索引擎蜘蛛的反感,逐渐的影响蜘蛛爬行的热度,就像我的收录非常好,现在蜘蛛只收录主页。另外还有一体店就是,若我们的网站要是存在大量的重复页面没有被搜索引擎剔除的话,那么这些页面对于我们的站点而言就是一个成长中的隐患,在未来某天的搜索引擎大更新当中随时可能进行大批量的剔除,这样势必会直接导致我们的网站的快照回档,网站权重下降,就这样周而复始,那么我们的站点还何谈发展之说呢?
(三)我们该如何去避免网站内容被重复收录?
当我们找到了其问题的根源之后,我们就应该去尽快的进行解决,但是我们该怎样去解决此现象呢?其实挺简单的,主要分为两大类:
1、URL标准化:在我们从网站开始的建设过程当中就尽可能的使URL统一,切勿使用动态页面进行连接,因为搜索引擎相对而言更为青睐静态页面,并且也直接防止我们的站点内容被重复收录。
2、利用robots.txt:巧妙的利用robots.txt来进行把我们网站当中的动态文件屏蔽,例如说Disallow: /*?*”这样就说明:这样的屏蔽方法适用于不存在TAG标签下使用,否则的话会直接导致TAG标签也被屏蔽。这样的方法相对而言比较自由,可以用于不同的程序之下。http://www.yixiin.com/sell/