站长基础说说之如何避免网站page的页面被重复抓取

2018-12-26 00:15:56 互联网258商务网2

核心提示：　观察阐发网站的日志，发明网站page的页面被蜘蛛重复抓取很多，如许子对网站的优化并不是很好。那么我们要若何制止网站页面被蜘

　观察阐发网站的日志，发明网站page的页面被蜘蛛重复抓取很多，如许子对网站的优化并不是很好。那么我们要若何制止网站页面被蜘蛛重复的抓取呢?
　　一、通过robots文件来把这个页面来屏蔽掉，具体做法语法格式：http://www.yixiin.com/news/
　　Disallow: /page/ #限定抓取Wordpress分页如查你的网站有必要也可以把下面的语句一并写上，制止出现过多的重复页面。 * Disallow: /categorytrackback/ #限定抓取Trackback内容 * Disallow:/category/* #限定抓取全部门类列表什么是蜘蛛，也叫爬虫，实在是一段步调。这个步调的成果是，沿着你的网站的URL一层层的读取一些信息，做简单处置惩罚后，然后返馈给配景服务器举行会合处置惩罚。我们必须相识蜘蛛的喜好，对网站优化才气做到更好。接下来我们谈谈蜘蛛的事变历程。
　　二、蜘蛛碰到动态页面
　　蜘蛛在处置惩罚动态网页信息是面对的困难。动态网页，是指由步调主动天生的页面。如今互联网发达步调开辟脚本语言越来越多，自然开辟出来的动态网页范例也越来越多，如jsp、asp、php等等一些语言。蜘蛛很难处置惩罚这些脚本语言天生的网页。优化职员在优化的时间，总是夸大只管不要接纳JS代码，蜘蛛要美满处置惩罚这些语言，必要有本身的脚本步调。在举行网站优化，淘汰一些不须要的脚本代码，以便蜘蛛爬行抓取，少导致page页面的重复抓取!
　　三、蜘蛛的时间
　　网站的内容经常变革的，不是更新就是改模板。蜘蛛也是不绝地更新和抓取网页的内容，蜘蛛的开辟者会为爬虫设定一个更新周期，让其凭据指定的时间去扫描网站，查察相比出哪些页面是必要举行更新事变的，诸如：主页的标题是否有变动，哪些页面是网站新增页面，哪些页面是已颠末期失效的死链接等等。一个成果强太的搜刮引擎的更新周期是不绝优化的，由于搜刮引擎的更新周期对搜刮引擎搜刮的查全率有很大影响。不外假如更新周期过长，便会使搜刮引擎的搜刮精确性和完备性低落，会有一些新天生的网页搜刮不到;若更新周期太过于短，则技能实现难度加大，而且会对带宽、服务器的资源造成浪费。
　　四、蜘蛛不重复抓取战略http://www.yixiin.com/brand/
　　网站的网页数目非常大，蜘蛛举行抓取是一个很大的工程，网页的抓取必要费非常多线路带宽、硬件资源、时间资源等等。假如经常对同一个网页重复抓取不但会大大的低落了体系的服从，还造成精确度不高等标题

点赞 0反对 0举报 0 收藏 0 打赏 0

更多>同类资讯

推荐图文

推荐资讯

点击排行

免责声明：本站所有信息均来自互联网搜集，产品相关信息的真实性准确性均由发布单位及个人负责，请大家仔细辨认！并不代表本站观点,258商务网对此不承担任何相关法律责任！如有信息侵犯了您的权益，请告知，本站将立刻删除。
友情提示：买产品需谨慎
网站资讯与建议：125493959@qq.com 客服QQ：2924917661

2924917661

• 站长基础说说之搜索引擎的内外部优化你知道多少	• 站长基础说说之网站百度收录需要注意的问题
• 站长基础说说之网站改版后的降权处理方法有哪些	• 站长基础说说之新手学习优化的3大步骤
• 站长基础说说之网站如何增加网站内页收录	• 站长基础说说之seo优化应该从seo的原理上出发才
• 站长基础说说之SEO新手易走进的优化几大误区	• 站长基础说说之SEO优化如何判定一个外链的价值
• 站长基础说说之蜘蛛是如何抓取页面数据的？	• 站长基础说说之百度图片的热门目录收录规则有哪