站长基础说说之网站SEO常见疑难杂症_SEO优化_258商务网
推广 热搜: 广州  SEO  贷款  深圳    二手    贵金属  网站建设  机器人 

站长基础说说之网站SEO常见疑难杂症

   2018-10-02 01:49:37 互联网258商务网7
核心提示:robots.txt文件有什么必要?robots.txt是什么?有没有想过,如果我们某个站点不让百度和google收录,那怎么办?搜索引擎已经和我
 robots.txt文件有什么必要?
robots.txt是什么?
有没有想过,如果我们某个站点不让百度和google收录,那怎么办?
搜索引擎已经和我们达成一个约定,如果我们按约定那样做了,它们就不要收录。http://cn.yixiin.com/news/
这个写约定的的文件命名为:robots.txt。
robots.txt是一个最简单的.txt文件,用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。
关于robots.txt一般站长需要注意以下几点:
如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。
必须命名为:robots.txt,都是 小写, robot后面加"s"。
robots.txt必须放置在一个站点的根目录下。可以成功访问到,则说明本站的放置正确。
一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。
观察这个页面并修改为自己的:
至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写: Disallow: /  (注:只是差一个斜杆)。
补充说明:
User-agent: *  星号说明允许所有搜索引擎收录
D禁止搜索引擎抓取。
Robots.txt 文件应放在哪里?
什么是robots.txt文件?
搜索引擎机器人通过链接抵达互联网上的每个网页,并抓取网页信息。搜索引擎机器人在访问一个网站时,会首先检查该网站的根目录下是否有一个叫做robots.txt的纯文本文件。当我们的网站有一些内容不想被搜索引擎收录,我们可以通过设置robots.txt文件告知搜索引擎机器人。
如果网站上没有禁止搜索引擎收录的内容,则不用设置robots.txt文件,或设置为空。
Robots.txt 文件必须放在网站的根目录。放在子目录的 Robots.txt 文件搜索引擎不能爬取到,所以不会起任何作用。
例子:

如果你不能控制根目录的 robots.txt,则你可以通过在子目录网页中使用标签阻止网页被收录。
SEO的角度,robots.txt文件是一定要设置的,原因:
网站上经常存在这种情况:不同的链接指向相似的网页内容。这不符合SEO上讲的“网页内容互异性原则”。采用robots.txt文件可以屏蔽掉次要的链接。
网站改版或URL重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用robots.txt文件删除旧的链接符合搜索引擎友好。
一些没有关键词的页面,比如本站的这个页面屏蔽掉更好。http://cn.yixiin.com/
一般情况下,站内的搜索结果页面屏蔽掉更好。
为什么PR值在浏览器插件上显示为0?
假设你的站点域名是
先看下你网站“首页”所对应的链接是或其他。如果你的域名pr值大于0,而首页在浏览器pr值插件上显示为0,则是因为你网站首页链接设置问题。现在基本上80%的网站,因为没有这个意识,网站的“首页”往往不是设置为域名,而是以index等为后缀。
注意点:
1、修改网站首页的链接为域名。
2、首页只有一个链接,在任何页面都不要以index.php、home.html或index.html为链接后缀链接向首页。否则会导致首页PR值被分散。
3、友情链接时,注意查看对方链接的应该给是主域名(首选域)。
如何查看网站被百度抓取的情况?
百度用于抓取网页的程序叫做Baiduspider - 百度蜘蛛,我们查看网站被百度抓取的情况主要是分析,网站日志里百度蜘蛛Baiduspider的活跃性:抓取频率,返回的HTTP状态码。
查看日志的方式:
通过FTP,在网站根目录找到一个日志文件,文件名一般包含log,下载解压里面的记事本,这即是网站的日志,记录了网站被访问和操作的情况。
因为各个服务器和主机的情况不同,不同的主机日志功能记录的内容不同,有的甚至没有日志功能。
日志内容如下:

分析:
这个页面。
200  代表成功抓取。
8450  代表抓取了8450个字节。
如果你的日志里格式不是如此,则代表日志格式设置不同。
很多日志里可以看到 200 0 0和200 0  64 则都代表正常抓取。
抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。当然,我们希望百度蜘蛛每日抓取的次数越多越好。
在网站出现问题的情况下,通过查看网站日志,查看网站的HTTP返回值是否正常,这篇文章总结了常见的HTTP返回值
我的站怎么就不被收录呀?
这个问题,被大家问过无数遍。我也回答了不下百遍。 下面是解决方案: 

1、查下你的日志,在日志里搜索这几个:“baidu”“google”“yahoo” ; 
2、从最近的日志里开始找,如果没有,再往前找一个;
3、日志中有这几个结果: 
    3.1、如果日志里,从来没有出现过这几位老大的机器人( Robot),那说明你没有提交成功或者是因为你发了太多spam(垃圾)链接被搜索引擎直接放入垃圾桶检索库了。 如果你的域名不是“一手的”,则不在此列。
      办法是:再提交,然后是等待,可能是一年之后。如果你发了太多spam,你可以考虑换一个域名了。

     3.2、找到baidu们了,看看昨天的日志里还有:"baidu"吗?还有的话,说明百度已经收录你了,只是还没展示出来。过几天吧。如果已经过了快2个月,还没展示出来,需要看看baiduspider的那行代码了。

     3.3、如果以前的日志里有,后来的没有,最大的可能是你的内容不符合规则。你的站将一直不展示。(那为什么有些站点内容和我一样,却可以搜索到?搜索引擎一般都会给一个时间,对于已经被收录的站点,不会一出现禁词就封掉,而是再观察一段时间。当然,也可能是搜索引擎糊涂了。) 这个情况也有一点可能是你的站点做得不是很好。通过这篇相关的文章获得帮助:
我的站被收录了两次,被封掉两次,怎么办?

菜鸟?还不懂?往下看: 

怎么看日志? 
通过ftp去看你的网站根目录下面是否有一个包含log的文件夹。如果实在没有找到,问问虚拟主机商。 
把它拿到本地 
解压它 
里面是一个记事本文件, 
这个记事本的文件名就是日志的时间 

还不懂? 
无语
这几个文章或许对你也有帮助:

日志中的HTTP状态码都代表什么?
怎么发帖可以让搜索引擎(百度)尽快收录?
访问本页面,您的浏览器需要支持Javascript,怎么回事?
百度和google里面搜索我的站点,出现:“访问本页面,您的浏览器需要支持Javascript”。到底怎么回事?
问题如:
这几天发现在百度和GOOGLE里搜索自己的站点时都显示:访问本页面,您的浏览器需要支持Javascript... 前几天还是正常的,网页都是纯的HTML,根本不存在浏览器是否支持的问题,请问是什么原因造成的呢?
答案:
我进行了一系列的分析,发现类似你这种情况的网站还很多。通过搜索“访问本页面,您的浏览器需要支持Javascript”查看其它网站和你的相似点去寻找原因。
目前我接触的几个站点发生这个情况的主要原因是,站点被病毒攻击了。请联系你的主机托管商配合处理。
这一段时间,这个情况出现很频繁。请尽快处理,以免对你站点的SEO造成影响。
查看网页源代码全是乱码,而页面显示正常,什么回事?
会不会影响搜索引擎(百度)收录?答案是:不会!
如果页面显示正常,查看网页源代码发现是乱码,这个情况一般来说是浏览器的问题。比如,你用IE看源代码是乱码,但用firefox看源代码就不会是乱码。(搜索引擎又不是用浏览器看网页,更不是用IE。)
但乱码还是挺讨厌的,怎么办?
这个根据很多网站的具体情况不同,处理办法也不同。原因一般是:1、UTF-8编码规范是将3个连续的字符计为单个字符,如果你在页面上加载了某一个长度不被3整除的字符串,那么页面就会出现乱码。2、一些多语言系统,如Joomla、manbo、phpfag等,如果你把汉字写入源代码,就会出现源代码是乱码的现象。
如果原来是正常的,你用了某个插件而导致出现这个情况,那么往往是那个插件中涉及到的提取字符长度问题。修改下即可。
 
反对 0举报 0 收藏 0 打赏 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行

网站首页  |  付款方式  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报
免责声明:本站所有信息均来自互联网搜集,产品相关信息的真实性准确性均由发布单位及个人负责,请大家仔细辨认!并不代表本站观点,258商务网对此不承担任何相关法律责任!如有信息侵犯了您的权益,请告知,本站将立刻删除。
友情提示:买产品需谨慎
网站资讯与建议:125493959@qq.com 客服QQ:2924917661点击这里给我发消息2924917661点击这里给我发消息