让网站蜘蛛抓取更多的页面采取的方法
想要提升网站收录量,一是要保持网站文章更新,更重要的就是要保证蜘蛛来是爬取更多的页面,进而抓取更多的页面
1、内部链接结构的合理构造给爬虫建立通路抓取更多页面 http://www.yixiin.com/quote/
提升收录量最重要的一个环节就是合理的构造内部链接,内部链接的构造我们可以在A5上找到大量的相关文章,但是太多的只有理论没有实践,真正想让网站内链构造的比较完美,我建议大家多看看那些内链做的好的门户网站,笔者就经常研究新浪的内链构造,堪称完美。对于我们这些服务于企业的seoer而言,应该拿手上的小站进行实践,只有这样才能总结出收录量和内链之间的数据关系。内链构造方法,比如首页、栏目页、内容页之间的链接回路,内容页相关内容、推荐内容、热点内容等的设置,内部锚链接的设置等等太多细节的东西还靠大家自己去分析和挖掘。笔者这里也只是给大家总结下这个因素对收录量提升的影响。
2、页面路径的静态化和url字符长度的缩短是提升收录量的基础
这一点应该是做seo的共识,首先说页面路径的静态化,有些cms系统本身就支持静态化或者伪静态化页面,如果网站是采用这些内容管理系统做的那就确实可以省去很多麻烦,如果自己独立开发的系统采用的动态的页面路径,那就需要采用正则表达式进行设定,具体的代码网上一搜一大推,我就不写出来了。虽然百度在搜索引擎优化指南里明确表明百度是可以抓取动态路径的,但是我们尽量还是要设置成静态的,比较搜索引擎爬虫为了防止掉入“陷阱”,以免进入死循环,还是对动态路径有所考虑的,所以干脆就直接设置静态化,这实现起来又不是很难。比如笔者的网站,我采用的本身就是dedecms系统,所以就很容易设置静态化,还有A5官网本身也是采用的dedecms的系统,所以对于一般没多少技术实力的站长而言,还是采用比较成熟的cms比较好,漏洞少,稳定性也好。
其次我得说说这个url的长度,我接触过一个客户的网站,让我超级郁闷,刚开始一篇文章都不收录,我查来查去也不知道原因何在,我把文章地址直接复制到百度查看才让我恍然大悟,原来他的url路径的文件名是新闻标题的全拼,一篇文章的标题汉字很长,那么转化成拼音的话就长的出奇,而百度对长度的抓取是有限制在38个字符之内的,后来把文件名修改成数字的形式才解决。url静态化和长度确实是影响收录量的一个重要因素。http://www.yixiin.com/sell/
3、nofollow和robots.txt的合理设置促进页面收录量提升
笔者曾优化过一个废品回收的网站,当时拿来后一直发现该网站收录只有1条,而且百度收录显示的网站标题还是网址的形式,这让我很郁闷,我首先考虑是不是服务器的问题,但是没有发现任何问题,然后我想到可能是robots的设置问题,果然,发现其写法是“User-agent Disallow:/”,这不明显是让搜索引擎不抓取网站吗?后来把“/”去掉,网站一切就正常了。这只是错误的设置,还有通过nofollow和robots的设置可以屏蔽掉对流量和关键词排名提升没有用的页面,通过这些设置可以让蜘蛛每天的抓取时间尽量放在有用的页面上,进而提升整个网站是收录量。