URL网址规范化(URL canonicalization)是搜索引擎搜索结果中经常出现的一个问题。网址规范化指的是搜索引擎挑选最合适的URL 网址作为真正文件网址的过程,举例来说,下面这几个URL 一般来说指的是同一个文件或网页:
这4个URL 都应该显示网站首页,但是从技术上来讲,这几个URL网址都是不同的,虽然在绝大部分情况下这些网址所返回的都是相同的文件,也就是你的首页,但是从技术上来说,主机完全可以对这几个网址返回不同的内容。
搜索引擎当然不希望数据库中有多个其实是同一个文件的重复URL,所以就需要将网址规范化,也就是从这些URL中挑一个最合适的代表。这个挑选过程有可能出现问题,站长要帮助搜索引擎判断哪一个才是最适合的,一般来说,网站首页是固定的,只有一个。但在很多网站上,栏目首页、内容页面等在链接回网站首页时所使用的URL并不是唯一的,有时链到 URLhttp://www.yixiin.com,有时链到URL http://www.yixiin.com/index.html。
虽然这不会给用户造成什么麻烦, 因为这些网址都是同一个文件,但是对搜索引擎来说却造成了困惑: 哪一个网址是你真正的首页呢? 如果你的网站上不同版本网址大量出现,那么这两个URL可能都会被搜索引擎收录进数据库,这时就会造成复制内容网页,
所谓复制内容网页,指的是两个或多个网页的内容是相同或大部分相同的。很多时候,复制网页是作弊手段或者抄袭的内容。搜索引擎通常会挑出其中一个返回搜索结果,而把其他的复制网页都排在最后面,以至于根本找不到,搜索引擎挑选哪一个URL不是站长能控制的,很可能挑选的不是站长希望的那个,当你的网站出现网址规范化问题的时候,就有可能被怀疑为复制网页,因而影响搜索引擎排名。
URL网址规范化问题也使外部链接的效力分散。 假设你吸引或交换的链接都是指向http://www.yixiin.com,但搜索引擎却认为 http://yixiin.com是网站首页,如果没有做301转向的话,这些外部链接就浪费了很大一部分,为避免网址规范化问题,站长应该做两件事:
1、网站内部在链接到其他网页,尤其是首页时,只使用一种URL。不管是包含或不包含www,由始至终只使用一个版本,这样搜索引擎也就明白哪一个是规范化的首页网址。
2、因为你没办法控制别的网站用哪一个网址链向你的首页。所以应该在服务器上把所有有可能成为首页网址的URL做301转向到你所选择的首页网址版本,也就是说,假设你选定http://www.yixiin.com是网站首页,下面这几个网址:
都要做301转向到这个网址:
除了包含 www和不包含 www的两个版本以外, 还有其他类型的URL 规范化问题。比如,有的时候搜索引擎会去掉或加上网址尾部最后的斜线,有的时候会尝试把大写字母换成小写字母,有的时候可能尝试去掉会话ID(Session ID)等,这些都有可能造成网址规范化的问题。
不同服务器做301转向的方法不同,请参照(301重定向设置方法)或者咨询服务器商和编程人员。