URL规范化

作者:鼎极网络发布日期:2019-11-13浏览次数:44

  网址规范化指的是搜索引擎挑选合适的URL作为真正(规范化的)网址的过程。

  一、首先,为什么会出现不规范网址?

  如图所示:

  http://maxseo.cn

  http://www.maxseo.cn

  http://www.maxseo.cn/index.html

  http://maxseo.cn/index.html

  上面这几个URL指的是同一个文件:首页

  从技术上来说,这几个URL都是不同的网址,搜索引擎也确实把他当作不同的网址,虽然这些网址返回的都是相同的文件,也就是首页。但从技术上来说:主机完全可以对这几个网址返回不同的内容。那么,除了图上带与不带www造成的,以及结尾是否带有index.html后缀造成的不规范网址外,其实还有以下几种原因会造成。例如:

  ①:网站程序的原因,不少CMS系统经常出现一篇文章可以通过几种不同的URL去访问。

  ②:URL静态化设置存在错误,同一篇文章中有多个静态化URL可以访问。如图(截图URL和访问的标题):

  

1.png

  

2.png

  

3.png

  ③:URL静态化后,静态和动态URL共存,都有链接,也都可以访问。

  ④:网站的目录后带与不带斜杠。如图:

  下图为不同的网址,但其实是一个页面。

  http://www.baidu.com

  http://www.baidu.com/

  ⑤:加密网址。如图:

  下图的URL同时存在,但都可以访问。

  http://www.baidu.com

  https://www.baidu.com

  ⑥:URL中有端口号。如图:

  http://www.baidu.com80/

  http://www.baidu.com/

  ⑦:跟踪代码。有喜欢做网络推广的人,习惯在URL后面加跟踪代码。如图:

  http://www.baidu.com/?*100

  二:其次,出现网址不规范会给网站带来什么问题?

  网站出现多个不规范网址会给搜索引擎收录和排名带来很多的麻烦,为什么不规范的URL会给搜索引擎和排名带来很多麻烦?为了让站长彻底的明白,我们举个例子,比如:网站首页是固定的且只有一个,但很多站长在链接回首页的时候所使用的URL并不是的,而是一会连到http://www.esobao.cn,一会连到http://www.esobao.cn/index.html。

  一般来说,虽然不会给用户造成什么麻烦,但因为这些网址都是同一个文件,会间接性的给搜索引擎造成困惑,搜索引擎会认为:到底哪一个网址才是真正的首页?哪一个网址应该被当作首页返回?那么,这里有个重点:如果网站上不同版本的网址同时出现,就会很可能被搜索引擎收录。被收录之后,后果就可想而知了。而此时,搜索引擎在计算排名的时候必须要找到所谓规范化的网址,也就是搜索引擎认为的合适的URL版本。

  不规范化会造成的问题,笔者简单的来说下:

  ①: 网站上有多个URL,这样会分散页面权重,不利于排名。

  ②:搜索引擎判断的规范化网址并不是站长想要的那个网址。如图(站长想要的是不带后缀的,搜索引擎去把带后缀的给收录了):

  

4.png

  ③:如果网址规范化问题太严重,也可能影响收录。因为:一个权重不是很高的域名,能收录的总页面数和蜘蛛总爬行时间是有限的,而搜索引擎把资源花在收录不规范的网址上,留给独特内容的资源就变得越来越少了。

  ④:重复页面过多,搜索引擎可能认为有作弊嫌疑。

  ⑤:对于搜索引擎来说,浪费资源、浪费宽带。

  三、后,如何解决网址规范化的问题

  关于如何解决网址规范化问题,可能这个对于站长而言是重点也是核心内容了。那么,可以解决URL规范化问题的方法有很多,比如接下来我们要说的这些:

  ①:现在企业、个人站长用的程序多的就是CMS,那么此时你就要确定你使用的这个CMS系统是否只能产生规范化网址,无论是否有静态化,比如DEDE、帝国CMS等。

  ②:所有内链要保持统一,都指向规范化网址。比如:以带与不带www为例子,确定一个版本为规范化网址后,网站的内部链接都要统一使用这个版本,这样搜索引擎就会明白哪一个是站长希望的网站规范化网址。而从用户体验的角度去看:用户通常选择就是带www的版本为规范化网址。

  ③:301转向。这个常用也是普遍的一个方法,站长可以通过301转向把不规范化URL全部转向到规范化URL。

  ④:canonical标签。目前也是站长使用比较多的一种了,而且百度也是全面支持这个标签了。

  ⑤:制作XML地图,地图中全部使用规范化网址,然后提交给搜索引擎。

  虽然方法很多,但很多方法都有局限性,比如:有的网站因为技术的缺失或不成熟,导致301无法实现。再比如:很多CMS系统经常无法受自己控制等等。那么,笔者这里主要针对301和canonical做下具体的说明,因为这两种规范化方式是站长常用的手段,而且也是百度认同的。

关键词:

什么是seo ?

  SEO(Search Engine Optimization),汉译为搜索引擎优化。搜索引擎优化是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。

  SEO就是在了解搜索引擎排名算法的基础上,对网站进行站内和站外的优化,对网站存在的弊端加以更正,提高网站关键词在搜索引擎中的排名,获得更多流量与转化率,从而获得盈利。

SEO可分为站外SEO和站内SEO两种。

了解搜索引擎工作原理

站内SEO

站外SEO

排名算法

站长工具

案例分析

搜索引擎工作原理

爬行

抓取

预处理(索引)

排名

搜索引擎自动信息搜集功能分两种。

      1、定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

      2、提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。

步:爬行

    搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。

第二步:抓取

  搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行

爬行方式

               广度优先                                          深度优先

 1.png                                    2.png

 

 

影响蜘蛛爬行的因素

网站、页面权重高。

网站更新度:蜘蛛每次爬行都会把页面数据储存起来,第二次来的时候发现页面没有变化,就不再抓取。如果页面经常更新,蜘蛛来的也频繁。

导入链接

与首页的点击距离。

是否导出链接过多

是否有网站地图

是否设置404页面

第三步:预处理(索引)

 

 3.png

 搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

      1.提取文字(去除格式代码,留文字部分)

      2.中文分词

      基于词典匹配,词典匹配相对降低,准确性取决于词典的完整性与更新度

      基于统计,分析大量的文字样本,统计出字与字相邻出现的概率,几个相邻出现次数越多越可能形成一个词

      两种各有优缺点,一般混合使用

      3.去停止词

      停止词就是那些页面中出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。

      4.消除噪声

      绝大部分页面上的一部分内容对页面主题也没什么贡献,比如版权声明文字、导航条、广告等。所以搜索引擎在预处理的过程会把这些无关内容进行消噪处理。

      5.去重

      同一篇文章重复出现在不同的网站或同网站不同的网址上,搜索引擎不喜欢重复性的内容。

      索引前进行识别和删除重复内容;去重方法:选取一部分特征关键词(一般是出现频率高的词),十个左右,计算这些词的数字指纹(MD5算法);特征关键词有任何微小的变化,计算出来的数字指纹都有很大的差距。   

      6.正向索引

      经过以上步骤之后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引过程就是可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都会记录在案了。


文件ID

内容

文件1

关键词1,关键词2,关键词7,关键词10,…… 关键词L

文件2

关键词1,关键词7,关键词30, ……,关键词M

文件3

关键词2,关键词70,关键词305,……,关键词N

……


文件6

关键词2,关键词7,关键词10,……,关键词X

……


文件x

关键词7,关键词50,关键词90,关键词Y

 

      7.倒排索引

      正向索引还不能直接用于排名,因为在搜索某个关键词的时候,排名程序需要扫描所有索引库中的文件,计算相关性,这样的计算量无法满足实时返回排名结果的要求,所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,在倒排索引中关键词是主键,每个关键词对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词是,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。

 

关键词

文件

关键词1

文件1,文件2,文件7,文件58,……,文件

关键词2

文件l,文件7,文件30,……,文件M

关键词3

文件2,文件70,文件305,……,文件n

……

……