网站内容相似度过高如何处理?

作者:鼎极网络发布日期:2019-11-12浏览次数:7

  通常来说,在网站的建设过程中,重复内容的产生很难避免,但是重复内容在很大程度上会影响网站在搜索引擎中的表现。今天和大家探讨的内容就是重复内容产生的原因以及解决方法。

  产生重复内容的主要原因

  1、正文内容越少相似度就会越高,相似度越高网站降权就越严重。主要表现在产品类网站,为什么呢,因为大多数是产品的图片,文字太少。

  2、正文的重复文字过多,也会导致相似度过高,那哪些东西会造成相似度过高呢?比如做产品站的,你的够买的流程是不是大多数都是相同的,版权以及联第方式,也是导致页面相似度过高的一个原因。

  那我们如何来杜绝呢?如果是做产品的,那么我们把每一个内容页面的图片做一个精准的描述。如果重复内容过多的见意做成图片上的文字来减少页面的相似度。

  如果内容过少我们可以这样来做:到互联网上找这个产品针对性的内容然后选取其内容,对我们自己的网页做内容伪原创,如果你是做百度的,你可以去360上去找内容然后把这些内容进行嫁结。如果你是产品类的见意你添加评论。评论你可以去淘宝、阿里上去找以此来减少页面的相似度。

  3、网站内容采集,就是内容源。如果你采集的内容跟互联网上的内容相似度过高而你的网站权重又不高,那么百度就会删除你的,解决办法就是(1)内容修改,对你所有采集的内容进行修改,但这个人工是非常大的,所以从一开始我们就做一个健康的网站是多么的重要。(2)修改内页不收录的页面的标题进行修改。

  4、网址规范化问题。

  网址规范化问题包括主域名的规范化和页面URL地址规范化两个方面,主域名的规范化需要规范化。另外是内页URL的规范化,通常为了让搜索引擎能够的抓取网站内容,我们会将URL进行伪静态处理,而一般的网站伪静态之后,原始的动态URL依然存在并能够访问,这样就造成了多个URL访问相同网址。

  5、内容的其他版本

  很多网站除了提供正常的版本之外还提供一些其它的浏览版本,比如打印版本或者简版,却并没有禁止搜索引擎去抓取这些页面,而这些页面也因此变成了重复内容页面。

  6、网站结构

  很多网站在结构设计之初并没考虑SEO方面的因素,结果是导致造成各种页面版本,比如产品按价格,评论,时间排序等,特别是一些电子商务网站,这种页面重复现象尤为严重。

  7、URL任意加字符还是返回200状态码。

  一些网站是因为网站程序和技术的原因,用户在URL参数后面随意加上一些字符都能够正常访问,并且页面是和没加之前的完全重复。

  检查页面是否有重复版本有一个比较简单的方法,就是将内容随机选择一句话加双引号后进行搜索,从结果中就可以看到有多少个重复的页面。因为通常来说随机选一句话进行搜索完全生命的机率是比较小的。

  END

  重复内容的危害

  1很多做SEO的存在一个误区,那就是认为如果网站上有重复内容就会被搜索引擎惩罚,其实倒没有这么严重,搜索引擎会在所有的重复页面中选择一个认为佳的版本去参与排名,其它相似的内容不会同时拥有排名。

  2那么问题也就来了,,搜索引擎如何去判断哪个页面是正版的,是否和网站管理员想的页面一致,如果搜索引擎判断失误,把原创的页面当成了复制内容,复制页面当成了原创页面,而你在进行推广的过程中却是原版,那就是做了无用功。第二,同一个网站内的页面存在多个复制内容会分散页面权重,既然页面在网站上出现了,就必然会有链接链向这个页面,而如果链接是统一的,那以全部的权重都可以进行集中,同时相同页面的收录在一定程度上也占用了搜索引擎蜘蛛的抓取精力,减少了原本真正需要进行抓取页面的收录机率。

  END

  消除复制内容的方法

  网址规范化问题好的方法是一个页面只对应一个URL,不要出现多个不同的版本,网站所有链接都指向这个URL。当然有些时候因为程度原来或者其它原因,无法完全统一为一个URL,那么我们可以采用以下三种方式进行集中权重。

  1,301重定向

  301能够传递页面的权重,目前来说主流搜索引擎都支持301重定向,可以将复制内容的页面全部通过301重定向的方式跳转到原版页面。

  2,robots文件禁止

  通过在robots.txt文件中禁止复制内容被搜索引擎抓取,也能有效的解决网址重复问题。

  3,canonical标签

  canonical标签是由谷歌,雅虎在2009年共同发布的一个新的标签,目前百度也表示支持canonical标签,这个标签也可以用于解决网址重复的问题。

  添加了以上标签后,也就相当于告诉搜索引擎哪个网址是规范原创的版本,其它复制内容都是指向这一个的网址,有一点页面301传递权重的意思,但是301是页面直接跳转了,而加这个标签后,页面还是停留在原始地址。


关键词:

  1) B2B:Business to Business.

  2) B2C:Business to Consumer

  3) C2C:Consumer to Consumer

  4) back link 即反向链接.常规链接在源文档内部进行声明和显示,而反向链接则在目的文档内部进行声明.如果B网站指向 A 网站,那么B网站就是都属于A 网站的反向链接.

  5) black hat:黑帽,简单的讲就是 SEO作弊

  6) bounce rate 就是一个跳出率,当一个用户进入一个网页,接着在一个会话时间内没有看过该站其他的页面就分开了该网站,就被称作Bounce。请注 意这里有两个参数,一个是是否点击浏览其他的页面,第二个就是哪个会话时间段。 这个Bounce Rate越低越好,说明用户访问了更多的页面。而且这个Bounce Rate已经是网站流量统计的一个通用标准,一般及格的流量统计都有。

  7) bread crumbs “面包屑型”架构让用户对他们所访问的此页与彼页在层次结构上的关系一目了然。这种网站结构的其中一个明显的特性体现莫过于返回导览功能。

  8) Canonical Issues (内容重复的一种) 所谓 Canonical Issues,主要指网站的主访问路径,如果网站存在多种访问方式,搜索引擎会取舍一种其认为佳的方式确定为“权威地址”,比如说,对大多数网站而言,其主页可以用以下三种 URL访问:

  9) click fraud 欺骗点击是发布者或者他的同伴对PPC广告进行恶意点击,因而来得到相关广告费用.欺骗点击降低了客户对广告商的信任.

  10) cloak 隐藏作弊 为了让你的网页被索引而采用一些专门针对搜索引擎的伎俩而不是着眼你的用户。比如隐藏一些不相关的关键词在你的页面,虽然访问者看不见但搜索引擎可以发现。Cloak 实际上是这么一个程序或者脚本:它查看 HTTP 头的内容,比如 IP 地址,User-Agent,URL 来决定显示不同内容给访问者。

  11) CMS Content Management System 内容管理系统,主要用于文章发布的系统.

  12) CPC Cost Per Click 即 以每点击一次计费。这样的办法加上点击率限制可以〖WX)〗加强EMU 的难度,而且是宣传网站站点的优方式。

  13) CPM Cost Per Thousand impressions (每千人成本)广告显示 1000次所应付的费用。

  14) crawler (同bot, spider) "蜘蛛"是通过链接结构在互联网中爬行来收集数据.

  15) duplicate content "重复内容"是一个页面的内容和互联网中另一个页面相同或非常相似.

  16) Feed 本意是“饲料、饲养、(新闻的)广播等”,RSS 订阅的过程中会用到的“Feed”,便是在这个意义上进行引申,表示这是用来接收该信息来源更新的接口.可以理解为,你的Blog页面是给人读的,而Feed 是给程序读的。

  17) frames "框架" 当我 们在浏览一个应用 Frames设计的网页,我们其实是在浏览至少三个文件。这些文件被编译到一 起,使它们看起来是一个文件。

  18) HTML 超文本标记语言(Hyper Text Markup Language)很简单,它就是编写网页的语言之一.

  19) in bound link (inlink, incoming link) 可直译为“来自外部网站的链接”,也就是我们通常所说的一个网站“被其他网站链接的数量”,

  20) indexed Pages "索引页"就是被搜索引擎索引的页面.

  21) inlink (incoming link, inbound link) 导入链接 指其他网站连到本网站的链接。

  22) keyword 关键字 是指您要作搜索引擎排名的词.

  23) keyword cannibalization 关键字拆解 就是在一个站点许多页面过度应用同一关键字,导致用户和搜索引擎难以分辩那个是这个关键字相关的页面.

  24) keyword spam (keyword stuffing) 关键字堆砌 为了晋升,目的关键字排名增加关键字的密度.

  25) keyword stuffing (keyword spam) 关键字堆砌 为了提升,目的关键字排名增加关键字的密度

  26) landing page 登陆页面 是指用户在搜索引擎结果页里点击进入的页面.

  27) latent semantic indexing (LSI) 潜在语义索引 是指搜索引擎排除一些匹配的搜索引擎字符,依据语义来把网页列出在搜索引擎结果中,

  28) link 链接 是网页的一个元素,点击它能在浏览器中跳转到另一个网页.

  29) link bait 链接诱饵 是指一个网页通过特殊定位和布局来吸引反向链接.

  30) link exchange 交换链接 是指互惠链接的树立,通常把它说为"友情链接".

  31) link spam (Comment Spam) 链接垃圾 通常的博客评论就是典型的例子.

  32) link text (Anchor text) 链接文本,瞄文本 是指用户能看见的一个链接.搜索引擎通过链接文本来判断被链接的站点是什么内容.一般都将关键字设为瞄文本.

  33) META tags meta标签是指在html和head 的一个陈述,它反映整个页面的信息.它在搜索引擎结果中可见,但是在它呈现给客户的页面是不可见的.主要的有 keyword和description两个功能.作SEO.meta标签的不可缺少的.

  34) nofollow 是一个属性,它能使搜索引擎蜘蛛忽略这些页面的一部分链接,很像链接避孕套,一般博客评论下都有个Nofollow属性.

  35) noindex 禁止索引是指在一个网页的head部分有一个禁止索引的命令,它能告诉搜索引擎不要索引当前这个页面.

  36) pagerank (PR) 网页级别是 Google 衡量网页重要性的工具,测量值范围为从1至 10 分别表示某网页的重要性.新网站的pr为0.一般 pr3个月更新一次

  37) PPA (Pay Per Action )按行为付费是指广告是只有当用户点击了特定的广告,进入指定的网站完成指定的动作后,广告商才须要付费。

  38) PPC (Pay Per Click) 是依据点击广告或者电子邮件信息的用户数量来付费的一种网络广告定价模式.常见的有google广告

  39)reciprocal link (link exchange, link partner) 同上,就是友情链接

  41) redirect 重定向是指当你打开一个页面,它自动跳转到另外一个域名或地址.

  42) robots.txt 机器人文件是指在网站根目录下的一个文件,通过书写的一些代码,能控制搜索引擎蜘蛛的抓取行为.通过它我们能让搜索引擎禁止或者疾速抓取我们的网站.

  43) sandbox 沙盒是指google会把所有的新站放入沙盒,并且不给于好的排名,直到这个网站通过google的考察期.

  44) search engine (SE) 搜索引擎,常见的有百度和google

  45) SEM (search engine marketing) 搜索引擎营销只要包括两点,一个是SEO 搜索引擎优化服务,另一个是付费SEM 搜索引擎营销,比如 PPC,竞价等

  46) SEO (search engine optimization) 搜索引擎优化就是通过对网站的结构,标签,排版等各方面的优化,使搜索引擎更容易搜索网站的内容,并且让网站的各个网页在GOOGLE等搜索引擎中获得较高的评分,从而获得较好的排名。

  47) SERP (Search Engine Results Page) 搜索引擎结果页是指用户在搜索引擎上搜索某一关键字而出现的结果页面.

  48) sitemap 网站地图是一个拥有网站所有或部分重要链接的页面,xml 类型的网站地图是提交给 google的.它能帮助网站更快的被搜索引擎收录.

  49) spider (bot, crawler) 搜索引擎蜘蛛是搜索引擎用来增加网页数据库的一个特殊机器人

  50) spider trap 蜘蛛程序陷阱是阻止蜘蛛程序爬行网站的妨碍物,通常源于那些网页显示的技术方法,这些手段能很好地配合浏览器,但对蜘蛛程序就构

  了妨碍。蜘蛛陷阱包括 JavaScript下拉菜单以及有些种类的重定向。

  51) static page 静态页面是指在网址URL 中没有任何变量和参数,静态页面往往对搜索引擎蜘蛛是友好的.

  52) stickiness 黏度是指网站通过对内容的不断更新和功能的增强,让用户一直浏览这个网站,就好像把他黏住一样.

  53) text link 文字链接是指以文本形式的连接,它不包括图片或 java script等

  54) time on page 页面停留时间是指用户在一个网页上停留的时间,直至他点击分开.

  55) trust rank 信任级别是用来区别有价值的页面和spam 页面,页面的价值越高,它的信任价值也就越高.

  56) URL 简单的讲就是网址103) user generated content (UGC) 是指“用户生产内容”,即网友将自己 DIY的内容通过互联网平台进行展示或者提供给其他用户。

  57) web2.0 是指具有用户互动的网站.

  58) white hat 白帽是SEO的正规技术,它于黑帽正好相反.