SEO专业名词解释

作者:鼎极网络发布日期:2019-11-12浏览次数:0

  1、什么是目标关键词 (主关键词)

  目标关键词,指经过关键词分析确定下来的网站“主打”关键词,通常指:网站产品和服务的目标客户可能用来搜索的关键词。

  一般情况下,目标关键词具有这些特征:

  1. 目标关键词一般作为网站首页的标题。(把主关键词放置在首页标题上,以示突出性)

  2. 目标关键词一般是2-4个字构成的一个词或词组,名词居多。(如果过长、就成了长尾词关键词)

  3. 目标关键词在搜索引擎每日都有一定数目的稳定搜索量。(如:百度 可以看百度指数)

  4. 搜索目标关键词的用户往往对网站的产品和服务有需求,或者对网站的内容感兴趣。

  5. 网站的主要内容围绕目标关键词展开。

  记住: 在你选择目标关键词时,一定要注意! 不要贪, 对于新手来说:“一般确定好2个右左目标关键词就行了”,我们都知道一般“目标关键词”都是放置在网站首页。那么如果你选择过多,同样也是在提高网站优化的难度。

  2、什么是长尾关键词

  什么是长尾关键词

  很多人把长尾关键词与目标关键词分不清,那什么样的词为目标关键词(主关键词)、什么样又为长尾关键词了?

  很容易理解:“除目标关键词(主关键词)以外可以带来流量的关键词都可以称之为长尾关键词”

  例: 1、SEO(主关键词) SEO学习(就是长尾词了)

  2、SEO学习(主关键词) SEO学习资料(就是长尾词了)

  注:先要确定好你的目标关键词是什么、然后在通过目标关键词扩展长尾关键词。

  长尾关键词对于一个网站来说很重要,可以说一个成熟的网站80%的流量都来自于长尾关键词、甚至更多,从SEO的角度上我们建站这前、就应该想好如果合理在网站中布属好长尾关键词。

  长尾关键词具有的特征如:

  1.比较长,往往是2-3个词组成,甚至是短语。

  2.存在于内容页面,目录页面,还存在于文章页面中。

  3.搜索量非常少,竟争力小,转化率也不差。

  4.转化为网站产品客户的概率比目标关键词低,但可以做为辅助词。

  5.存在大量长尾关键词网站,其带来总流量非常大,优势:可延伸性,针对性强,范围广。

  挖掘长尾关键词工具及方法:

  1、下拉框

  2、相关搜索

  3、百度指数

  4、谷歌罗盘

  5、自己想

  6、问朋友

  7、SEO工具

  3、什么是关键词密度

  什么是关键词密度?

  关键词密度(Keyword Density)与关键词频率(Keyword Frequency)用来量度关键词在网页上出现的总次数与其他文字的比例,一般用百分比表示。相对于页面总字数而言,关键词出现的频率越高,关键词密度也就越大。

  举例:如某个网页共有100个词,而关键词在其中出现5次,则可以说关键词密度为5%,这个例子只是一种理想的简化方式,它没有有效包括HTML代码里面的诸如meta 标签中的Title、Keywords、Description,图片Alt元素、Title注释文本等,这些在计算关键词密度时也都要考虑在内的。同样地,在计算关键词密度时,也不仅仅指网页可见部分中关键词出现的次数,也包括在上文中提到的非可见部分中的出现次数。同时,也要考虑Stop Words(停用词) ,这些词往往会在很大程度上稀释关键词密度。搜索引擎在算法上要比这复杂得多,但基本策略与此近似。

  关键字密度对网站排名影响

  关键词密度并不是越高越好,下面的解释,你或许会明白关键词密度意味着什么?

  许多搜索引擎包括Google、百度、yahoo!等都将关键字密度做为其排名算法考虑因素之一,每个搜索引擎都有一套关于关键字密度的不同的数学公式。合理的关键字密度可使你获得较高的排名位置,密度过大,起到相反的效果。

  就实施惩罚前所容许的关键字密度的阈值而言,不同的搜索引擎之间也存在不同的容许级别。对过度优化如关键词Spam而言,不同的搜索引擎容忍的阈值也不尽相同

  方面:其中我们不要太去在意关键词的密度,我们更应该关注“关键词突出度”,如果把关键词的突出度做好后,那么关键词的密度同样会提高上面. 比如title,h1/h2,图片alt,正文前面,文章标题等等。近义词或语义相关的词,起到辅助鉴别页面主题的作用,有时候也能组合出更多关键词,但不能取代目标关键词的出现。

  第二方面:很多SEO优化者、往往都只是考虑到了某个“关键词”在页面中的出现频率,但是如果站在一个以Ctrl + F 查找的完全匹配的角度去判断,给出来的%值只否真的正确了。那么如果以分词的形式来体现及参考了,百度既然连近义词或语义相关的词都会考虑。难道一个简单到只要会点编程的朋友都能做出来的小工具、不会考虑吗?

  SEO密度为多少频率好? 很多SEO前辈都回答过这个问题。答案分别是:2-8%、3-7%、低于10%、5%左右,但关键词密度是一个模糊的概念而不是。

  关键词的密度,在搜索引擎中,给予每个关键词密度都不同的! 这个密度是需要自己去实验的,但其中关键词的密度与网站整体索引数据的数量有直接关系。

  4、什么是关键词指数

  什么是关键词指数,指在搜索引擎中,用户搜索“某关键词”总数量(这里指“或一月”的总数),关键词指数越高搜索量就越高,这里面说的指数,一般是指百度指数或GOOGLE指数,而不是关键词指数。

  百度指数地址:http://index.baidu.com

  百度指数, 可以查看地区与时间“关键词”的搜索情况,使SEO优化者找到更有转换率的目标关键词!

  5、什么是关键词突出度

  什么是关键词的突出度

  搜索引擎都会试图确定页面,标签,以及链接中重要的词.不管是你的HTML代码是否带有帮助搜索引擎赋权的标记,你都需要知道首要的度量发放是突出度(例如,在所有分析的文本块中,越靠前的词就被认为是越相关或者越重要的词).

  其实仔细去理解、是一件很容易的事,就拿看报纸来说吧、一般人习惯性的眼去看那里了? 是不是大的标题、然后在是下面的一段介绍、看了标题及介绍后、感觉有意思/或认为值得关注、才会往下看吧、应该看少看到那种先把内容中间的一部份看完、在来看标题的奇人吧。

  同样搜索引擎也是一样的、我记得我在关键词密度中提到过关键词突出度与关键词密度的结合优化、其中就提到了、我们应该把关键词的突出度做起来、从而来提高关键词的整体密度,这样才能让搜索引擎的定位好该页面、那么我们如何来处理突出度了,其实也很简单、就像前面那个看报纸的例子,如何才能去吸引用户查看或者说如何才能的展示好我们的重要信息。

  如果从内容的角度、你会认为写一篇高质量的文章、这样可以会吸引用户、但是这只是针对用户、那么搜索引擎了、他是不是可以的理解了,所以我们还需要处理一些针对搜索引擎的优化、如果针对搜索引擎、我们知道搜索引擎只是抓取代码+内容,那么可以推理出我们可以从程序上入手。综合前面所说的报纸理论、可以推理得出:H1-H6标签、标签() 、style="color: #ff0000" 等都是代表着加重、着重、突出等含义,那么这些标签就是一种突出的体现。这些只是程序一方面的突出、还有就是内容方面的加强、比如:正文前面、文章标题、底部等等,具体细节操作我就不多讲了。

  SEO 突出度,意味着不紧突出整个站的主题,同时也给带了用户的用户体验! SEO突出度不紧要做给搜索引擎看,我们还需要做给用户看!让用户进入你网站后,可以一目了然的确定该网站的大致主题结构!

  关键词的突出度包括那些优化

  1、标题(Title) 对于搜索引擎来说,Title网页中重要的分,浏览器器顶端就是网站标题,有足够的吸引力与突出度

  2、网页描述通常就是文章一段摘要,有些搜索引擎会显示网页描述,大多数搜索引擎不再显示网页描述,也不会给它比正文文本更多的权重(因为现在搜索引擎不在看中描述了,写描述只能是给用户的一种用户体验,但对用户也是一种关键词突出度的体验)。

  3、正文文本 包括页面上出现的所有词,但是出现在页面顶端的部分的正文会被认为比在中间和下部的文本更重要。网页中出现图片后加入ALT属性,也能体现出关键词的突出度,搜索引擎用来“了解”每个图片讲得是什么。

  4、段落标题和强调文本,大多数搜索引擎会更重视在使用加粗标签的段落标题中找到关键词,而对倾斜体或是有颜色的文字,会假设是关键词比较重要的出现。段落标题在与杂志文章的粗体段落标题极为相似,能够断开连续的文字并指出下面段落要讲什么。

  --------------------------

  6、什么是锚文本链接 (超级链接)

  访问者通过点击网站上的“目标关键词”就能进入某个页面、那么我们就把“目标关键词”这种链接文字称为锚文本链接

  锚文本链接样式:

  目标关键词 (主关键词)

  锚文本链接应用:

  在搜索引擎中锚文本一般代表下个随机冲浪页面的一个内容评估。正常来讲,就是告诉搜索引擎这个链接指向页面的大致内容描述、那么他的作用在SEO优化当中是一个很值得关注的重点之一、如果了解外部链接的朋友应该就知道、外部链接的作用就是投票的认可、那么如果我们想知道投票的含义、我们应该如果去判断了或者说我们想有针对性的去投票我们应该怎么处理了。

  如果说站在一个用户的角度去思考问题、当你看到这两个链接时、是一个不懂SEO、不懂SEM、只是一个普通的网名、上面的两个链接给予你的反馈是什么了,可能你看了URL时、基本就是不知道你点击了这个链接、下个随机冲浪页面是什么,但锚文本不同、你可以根据锚文本含义去判断你将要冲浪的下个主题是什么。

  而从SEO的角度来说、这是一个相当性定位的问题,如果是URL链接、搜索引擎可能不能正常的判断出下个冲浪主题是什么、而锚文本是可以大致判断下个冲浪主题的内容、这也是为什么SEO优化中要用锚文本链接、而不用URL链接的理由。

  7、什么是反向链接 (外部链接)

  反向链接简单理解:

  网页A 上有一个链接指向网页B,则网页A 上的链接是网页B 的反向链接。

  反向链接的作用

  外部链接主要有两个作用。一个作用是面向用户,用户可以通过A网站的链接点击到B网站从而带来访问者,另一个作用是外部链接可以分享到一部分权重,A网站链接到B网站代表A网站告诉搜索引擎它信任B网站,觉得B网站是一个不错的网站从而给B网站投了一票,这样B网站就可以从A网站分享到一定权重,并在搜索引擎那的权重得到提高。

  8、什么是错误链接 (网站死链接)

  死链接是网站建设中专业术语,也就是无效链接

  那些情况会出现死链接:

  1、动态链接在数据库不再支持的条件下,变成死链接。

  2、某个文件或网页移动了位置,导致指向它的链接变成死链接。

  3、网页内容更新并换成其他的链接,原来的链接变成死链接。

  4、网站服务器设置错误。

  也就是说一些网站看似一个正常的网页链接,但点击后不能打开相对应的网页页面,这样的链接多见于长时间没有维护的网站页面上或动态网站出现过多!

  死链接对搜索引擎的影响

  死链接 - 也称无效链接,即那些不可达到的链接。一个网站存在死链接不是什么好事,首先一个网站如果存在大量的死链接,必将大大损伤网站的整体形象,再者搜索引擎蜘蛛是通过链接来爬行搜索(影响蜘蛛的爬取),如果太多链接无法到达,不但网站收录页面数量会减少,而且你的网站在搜索引擎中的权重会大大降低.如果该网站出现死链接过多,网站URL打不开链接的现象,我们会怎么做?95%的人会离开该网站,去其他站点寻找信息。

  作为SEO优化人员一定要注意这些小的细节问题,做网站优化必须考虑用户体验,一个权威性网站肯定是能留的住访客的,除了内容外,死链接这种低级错误必须尽一切可能降低到少好没有。

  9、什么是友情链接 (互惠链接)

  友情链接是指网站双方站长约定,双方同时在自己的网站加上对方的链接。通过点击锚文本,即可到达对方网站。由于这种链接是双方同时约定的,所以就叫“友情”链接。

  为什么要加友情链接呢?友情链接的好处不在于可以给您的网站带来多少直接的访问量,而在于它会让搜索引擎更多的收录您的网页。居权威调查显示,全球80%的网站,他们的访问量70%-90%都是来自搜索引擎,因此,让搜索引擎收录更多的网页,就是提高网站访问量的有效办法。

  --------------------------

  10、什么是百度快照(更新日期)

  什么是百度快照(更新日期)

  如果无法打开某个搜索结果,或者打开速度特别慢,该怎么办?“百度快照” 能帮您解决问题。每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度速度较快,您可以通过“快照”快速浏览页面内容。 不过,百度只保留文本内容,所以,那些图片、音乐等非文本信息,快照页面还是直接从原网页调用。如果您无法连接原网页,那么快照上的图片等非文本内容,会无法显示。

  百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量应急网页。百度快照功能在百度的服务器上保存了几乎所有网站的大部分页面,使您在不能链接所需网站时,百度为您暂存的网页也可救急。而且通过百度快照寻找资料要比常规链接的速度快得多。因为

  1、百度快照的服务稳定,下载速度极快,您不会再受死链接或网络堵塞的影响。

  2、在快照中,您的关键词均已用不同颜色在网页中标明,一目了然。

  3、点击快照中的关键词,还可以直接跳到它在文中出现的位置,使您浏览网页更方便.

  4、你搜索的时候,在后有个中括号里面写着百度快照

  5、快照打开的还是那个网页,不过可以用颜色标出你搜索的内容

  百度速度较快,您可以通过“快照”快速浏览页面内容。 不过,百度只保留文本内容,所以,那些图片、音乐等非文本信息,快照页面还是直接从原网页调用。

  11、什么是网站收录(内部收录率)

  网站收录也就是网站收录率,网站收录率概念来源于搜索引擎对网站收录的内容的数量来计算,搜索引擎收录内容占的网站实际内容的百分比。

  同时网站收录也是网站优化大因素,都知道没有收录那来排名,所以说网站收录率的提高可以网站获取搜索流量的重要因素之一。

  怎样提高网站收录率,怎样获取流量,是站长们关注的目标之一。建议大家要想提高网站收录率,就必须先从了解索引擎的收录习惯,才能的提高网站收录率。

  怎么样查询网站收录量:

  打开搜索引擎,输入site:+ 网址,如site:www.xxx.com,不带http://,即可查询到网站收录多少页面

  影响网站收录率提高不利因素:

  1、内容大量来源于采集,转载,没有原创,搜索引擎不喜欢,只被收录首页或根本不收录。

  2、内容中涉及不合法的内容,会被搜索过虑,禁止拒绝给搜索用户提供非法信息内容

  3、服务器ip、域名、在搜索引擎中有不良前科,遭受过搜索引擎的惩罚,后果很严重。

  4、站内优化作弊,(没有高深作弊手段,建议大家选择白帽优化)正在受到搜索引擎处理。

  5、内容大量采用图片、flash、调用、框架、JS等,搜索引擎蜘蛛无法正常读取网页的内容。

  6、服务器不稳定,不能24小时无间断正常被打开,搜索引擎蜘蛛也讨厌你这样的网站。

  如何提高网站收录率了:

  1、增加原创文章,网站原创性多少直接关系到搜索引擎收录你网站数量多少(当然这里也有外链接与权重的影响)。

  2、内容更新稳定,内容经常更新,搜索引擎蜘蛛也来的快,当然它不会白来,也就把新内容收入囊中。

  3、网站权重高,网站信任度高,那么网站质量也高,也是搜索引擎蜘蛛重点关注的对象。

  4、网站内部优化,网站构造简洁,服务器稳定、快速,更容易让搜索引擎蜘蛛爬行。

  5、将网站提交到搜索引擎提交与登录入口、各大网页分类目录、网址导航、内容转发到别的网站等同样能提高网站收录率。

  6、网站地图导航,如普通的Html站内地图导航、Sitemap.xml格式地图,蜘蛛根据网站地图导航索引,爬行网站,但要确保网站无死链接,界面要简洁。

  12、什么是Meta标签

  HTML 标签

  元素可提供有关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词。

  标签位于文档的头部,不包含任何内容。 标签的属性定义了与文档相关联的名称/值对。

  在网页的HTML源代码中一个重要的代码“”(即通常所说的META标签)。META标签用来描述一个HTML网页文档的属性,例如作者、日期和时间、网页描述、关键词、页面刷新等。

  1、Keywords (关键字),为搜索引擎提供的关键字列表

  用法:

  2、Description (简介),用来告诉搜索引擎你的网站主要内容。

  用法:

  3、Robots (机器人向导),Robots用来告诉搜索机器人哪些页面需要索引,哪些页面不需要索引。

  用法:

  all:文件将被检索,且页面上的链接可以被查询;

  none:文件将不被检索,且页面上的链接不可以被查询;(和 "noindex, no follow" 起相同作用)

  index:文件将被检索;(让robot/spider登录)

  follow:页面上的链接可以被查询;

  noindex:文件将不被检索,但页面上的链接可以被查询;(不让robot/spider登录)

  nofollow:文件将不被检索,页面上的链接可以被查询。(不让robot/spider顺着此页的连接往下探找)

  如果您不想百度追踪某一条特定链接,百度还支持更的控制,请将此标记直接写在某条链接上:sign in

  4、Author (作者),标注网页的作者或制作组

  用法:

  5、Copyright (版权),标注版权

  用法:

  6、shortcut icon (网页图标),为网页添加图标

  用法:

  将代码加入网站头部代码中, 然后把favicon.ico放置网站根目录

  7、Refresh (刷新) ,让网页多长时间(秒)刷新自己,或在多长时间后让网页自动链接到其它网页。

  用法:

  其中的30是指停留30秒钟后自动刷新到URL网址

  13、什么是百度权重

  权重就是搜索引擎对一个网站的整体评级,也可以说是搜索引擎对网站页面整理质量的判断后给予的评价,而搜索引擎对每个行业或者各类型的网站评价标准也各有不同。

  知道权重的基本概念,百度权重就不难理解,就是百度搜索引擎对一个网站的整体评价,而其他的搜索引擎,像谷歌的PR,搜狗的SR等,其实都可以理解为权重同样的意思和概念,都为对一个网站的评级。只是他们的算法及判断标准各有不同。

  目前百度搜索引擎是没有公开说明百度权重值,但谷歌PR值及搜狗SR值是搜索引擎本身公开的数值、所以权威性方面比较高,而百度的的百度权重值是来源于一个叫爱站的网站,明确的说爱站的百度权重值是由爱站站长根据多年的SEO经验判断,然后收集各类网站数值后、进行的整合判断得分,像PR值一样也是从0-10的分数判断。

  百度权重的作用

  1、排名方面体现、相对来说,权重很高的网站,关键词的排名就会相对靠前,而且相关的关键词排名数量就会越多,如长尾词、如果一个网站有很多长尾词都有排名,那么就可以说明这个网站的整理质量很高。

  2、收录速度体现、百度搜索引擎会优先收录网站质量比较高的页面内容,如新浪、网易等、能达到网站内容秒收的效果,同样可以说明这样的网站已经得到搜索引擎的高度信任。

  3、友情链接或出售链接体现、如果你的网站权重值很大、那么就说明你的网站排名还不错,因此与别人交换链接也比较容易。

  14、DNS

  DNS(Domain Name System,域名管理系统),因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。

  15、黑帽SEO

  笼统的说,所有使用作弊手段或可疑手段的,都可以称为黑帽SEO。比如说垃圾链接,隐藏网页,桥页,关键词堆砌等等。近一两年,典型的黑帽搜索引擎优化是,用程序从其他分类目录或搜索引擎抓取大量搜索结果做成网页,然后在这些网页上放上Google Adsense。这些网页的数目不是几百几千,而是几万几十万。所以即使大部分网页排名都不高,但是因为网页数目巨大,还是会有用户进入网站,并点击Google Adsense广告。

  16、白帽SEO

  不用说就是黑帽SEO相反的,那就是用百度喜欢的,正规的方法去做seo,百度百科的解释是:白帽SEO是一种公正的手法,是使用符合主流搜索引擎发行方针规定的seo优化方法。它是与黑帽seo相反的。白帽SEO一直被业内认为是佳的SEO手法,它是在避免一切风险的情况下进行操作的,同时也避免了与搜索引擎发行方针发生任何的冲突,它也是SEOer从业者的高职业道德标准。

  27、灰帽SEO

  所谓SEO灰帽即是指介于白帽与黑帽之间的中间地带,相对于白帽而言,会采取一些取巧的方式来操作,这些行为因为不算违规,但同样也不遵守规则,是为灰色地带。

  --------------------------

  18、什么是网站地图-(Sitemap)

  什么是 Sitemap

  Sitemap 可方便管理员通知搜索引擎他们网站上有哪些可供抓取的网页。简单的 Sitepmap 形式,就是 XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。

  Sitemap协议讲解

  Google SiteMap Protocol 是Google自己推出的一种站点地图协议,此协议文件基于早期的robots.txt文件协议,并有所升级。在Google官方指南中指出加入了 Google SiteMap文件的网站将更有利于Google网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。文件协议应用了简单的XML格式,一共用到6个标签,其中关键标签包括链接地址、更新时间、更新频率和索引优先权。

  Google SiteMap文件生成后格式如下:

  <urlset xmlns=http://www.google.com/schemas/sitemap/0.9>

  <url>

  <loc>http://www.SemCmd.com</loc>

  <lastmod>2005-06-03T04:20-08:00</lastmod>

  <changefreq>always</changefreq>

  <priority>1.0</priority>

  </url>

  </urlset>

  SiteMap XML标签的解析:

  changefreq:页面内容更新频率,

  lastmod:页面后修改时间

  loc:页面链接地址

  priority:相对于其他页面的优先权

  url:相对于前4个标签的父标签

  urlset:相对于前5个标签的父标签

  注意:XML文件必须为UTF-8编码格式,不管你是手动生成还是通过代码生成,建议好检查一下xml文件是否是utf-8编码,简单的方法就是用记事本打开xml然后另存为时选择编码(或转换器)为UTF-8。

  19、什么是地址和相对地址

  网站URl_地址和相对地址

  很多人都会问,是地址好了,还是相对地址好!

  地址:独立地址,在任何网站通过这个地址可以直接到达目标网页。包含主域名和目录地址。

  相对地址:相对于网站的地址,当域名改变时,相对地址的“地址”也发生变化。

  什么是地址与相对地址

  1、/HttpErrors/404.html ——>(相对地址) 链接指向404页面

  2、www.xxx.com/HttpErrors/404.html ——>(地址)链接也是指向404页面

  每个链接要使用地址。特别是一些独立IP的网站,使用地址可以防止网站被其他域名镜像。

  20、什么是SEM (搜索引擎营销)

  SEM是Search Engine Marketing的缩写,中文意思是搜索引擎营销。SEM是一种新的网络营销形式。SEM所做的就是全面而有效的利用搜索引擎来进行网络营销和推广。 SEM追求高的性价比,以小的投入,获大的来自搜索引擎的访问量,并产生商业价值。

  SEO和SEM的区别

  SEO是属于SEM的一部分,SEO和SEM主要的是终目标的不同:

  SEO主要是为了关键词的排名、网站的流量、网站的结构、搜索引擎中页面收录的数据。

  SEM是通过SEO技术基础上扩展为搜索引擎中所带来的商业价值,策划有效的网络营销方案,包括一系列的网站运营策略分析,并进行实施,营销效果进行检测。

  搜索引擎营销的目标层次

  Sem:搜索引擎营销,可分为四个层次,可分别简单描述为:存在层、表现层、关注层和转化层。

  21、HTTP返回码

  HTTP协议状态码表示的意思主要分为五类 ,大体是 :

  1××   保留

  2××   表示请求成功地接收

  3××   为完成请求客户需进一步细化请求

  4××   客户错误

  5××   服务器错误

  1、HTML源代码分析教程

  1、<!--页面注解-->

  2、<html>

  3、<head>

  4、<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

  5、<meta http-equiv=“Content-Language” content=zh-cn>

  6、<title>页面标题</title>

  7、<meta name="keywords" content="关键词">

  8、<meta name="description" content="网站描述">

  9、<link href="inc/css.css" type="text/css" rel="stylesheet">

  10、</head>

  11、<body>

  12、<div>

  13、<h1>页面内容标题</h1>

  14、<h2>页面相关性标题</h2>

  15、<h3>标题系列</h3>

  16、<h4>标题系列</h4>

  17、<h5>标题系列</h5>

  18、<h6>标题系列</h6>

  19、<img src="xxx.jpg" alt="图片说明">

  20、<a href="/" title="链接说明">锚文本</a>

  21、<strong>重点关键词强调</strong>

  22、<b>关键词强调</b><u>关键词强调</u><i>关键词强调</i>

  23、</div>

  25、<div>

  26、版权部分关键词强调

  27、</div>

  28、</body>

  29、</html>

  ********************************************************

  注:在<body>..</body>标签区中的罗列,都是一些基础的HTML标签,这些标签出现的次序是可以变化的。

  第1行的<!--页面注解-->

  这个标签是用来做HTML代码注解的,这种形式的注解在浏览器中是不会显示的,而搜索引擎可以读到。所以这个标签有的时候会成为作弊的一种形式,而这种原始的作弊方式、早被搜索引擎

  第4行到第5行<!--meta标签-->

  对于Meta标签来说他包含了很多参考、其中需了解“Content-Type”代表页面编码、“Content-Language”代表页面语言,这是一个很容易被SEO初学者忽悠的标签、一旦设置错误、可能影响搜索引擎对页面的抓取及收录。

  第6行<title>页面标题</title> 重点了解

  页面标题对搜索引擎排名的优化是非常大的、而在SEO优化过程中、也是重点优化对像之一、尤其是百度对页面标题的评分很高、而标题的书写也直观重要、包括:标题是否完全匹配、是否包含与被包含关键词等

  第7行<meta name="keywords" content="关键词">

  关键词标签对于现在的搜索引擎或SEO优化者来说价值越来越低了、以前搜索引擎对关键词标签是很看重了、由于黑帽的手法慢慢体现、一些SEO人员以堆积关键词标签来提升网站排名为目的,导致现在搜索引擎对关键词标签、可以说是忽悠判断,但是个人认为、虽然是被忽悠、但是首页的关键词还是可以手工处理下、至于内页可以忽悠。

  第8行<meta name="description" content="网站描述">

  主要在搜索引擎结果中体现,与关键词标签一样、目前不太受搜索引擎看中、但描述标签与关键词标签是有区别的、关键词标签浏览器用户正面是无法看到,但是描述标签一旦被搜索引擎索引、是会体现在搜索引擎结果中、而这个结果是可以直接响影用户点击率、可以说一个好的描述可以为你网站增加很多点击及转化、提示:由于搜索引擎时刻在更新、算法及索引方法也不段在进步、或者说很人性化、所以搜索引擎会根据用户搜索“关键词”去抓取网站描述。所以个人建议、还需要注意首页描述及着陆页描述的书写、其它部分可以使用程序调用、

  第13行<h1>页面内容标题</h1>

  H1标题、一个代码优化中重点标签,也是搜索引擎定位这个页面主题的依据,如果你的<h1>标签里没有出现你的页面关键字,那么这是一种很大的损失,这里的权重相对于其它的在<body>区的标签来说更加重要。在代码优化中、它的重要性仅次于<title>。所以,必需认真对待你的页面<h1>标签的优化,一般使用在文章页面来的文章标题优化。(H1+TITLE 可以说是SEO优化中的致命组合)

  第14行到第18行<h2>页面相关性标题</h2>

  对比<h1>标签来说、H2标签重要程度相对来说就降底了,一般使用在长尾关键词及相关内容方面,而<h3>~<h6>这些标签,重要性是依次递减的,在一个页面的权重越来越低。

  第19行<img src="xxx.jpg" alt="图片说明">

  我们知道搜索引擎是不可以抓取图片内容的、那么如何合理的告诉搜索引擎某张图片代表什么了,ALT标签就是告诉搜索引擎图片含义、让搜索引擎的理解图片内容。

  第20行<a href="/" title="链接说明">锚文本</a>

  锚文本、我们称为关键词链接,关键词链接在SEO优化当中是一个非常重要优化对象之一,而锚文本链接又可以扩展,外部链接形式的锚文本及内部链接形式的锚文本。具体对SEO的作用是需要判断链接的形式不同而不同。

  第21行<strong>重点关键词强调</strong>

  <strong>标签基实重要性仅次于<h1>,也是强调一类、包括:<b>、<u>、<i>等标签。而对于搜索引擎来说<strong>标签的影响要高说<b>、<u>、<i>等

  第26行版权部分优化

  随着搜索引擎越来越强大、网页底部、版权部分也是SEO优化者需要优化的地方、一般来说底部文件对于程序来说都是全部调用、所以如果能在底部加上一个关键词链接指向网站首页、那么这种内部式全部投票也是一种对首页页面权重的提高。

  Canonical标签的使用

  <link rel='canonical' href='url' />

  用来解决由于网址形式不同内容相同而造成的内容重复问题,可以让搜索引擎只抓取你想要强调的内容

  2、HTML基础代码收集(必学)

  3、HTML头标签(HTML Head Tags)

  4、有效链接与无效链接理解

  --------------------------

  5、ALT图片_描述属性

  6、Description_描述标签

  7、搜索引擎(蜘蛛)Robot

  8、网站404页面处理方法

  9、网站Html地图制作方法

  10、着陆页面(LandingPage)

  Page),有时被称为首要捕获用户页)就是当潜在用户点击广告或者利用搜索引擎搜索后显示给用户的网页。一般这个页面会显示和所点击广告或搜索结果链接相关的扩展内容,而且这个页面应该是针对某个关键字(或短语)做过搜索引擎优化的。

  在竞价排名广告(PPC)中,着陆页可以通过不同的定制来衡量不同广告的效果。通过在网址中添加参数,市场营销员可以通过统计相关参数的点击率来衡量相关广告的效果。

  通俗的讲,着陆页面就是访问者顺着链接到达另一网站的个页面。从SEO角度上来看,着陆页面越多,证明获取流量的方式就越多。无论是做SEO还是adwords广告,都需要事先了解自身网站的目标关键词和着陆页面匹配关系。

  什么是着陆页:

  例:

  SEO学习:http://www.xxx.com

  SEO入门:http://www.xxx.com/seo-rumen/

  什么是着陆页:http://www.xxx.com/seo-rumen/123/

  注意:我们可以把任何页面看作成“某个关键词”的着陆页,同时搜索引擎也会为每个网站定位好各类“关键词”的着陆页

  在SEO优化过程中,很多朋友可能听说过为某个关键词布局、同样也可以理解:为某个关键词选择佳优化页面,而这里的佳优化页面也就相当于是“佳关键词着陆页面”

  关键词着陆页定位:

  关键词 site:www.xx.com (一般我们取个搜索结果)

  注意:使用该命令,百度准确率为95%左右 而谷歌为85%左右

  11、Robots.txt文件_使用解析

  12、HTTP状态码_IIS日志分析

  13、百度搜索引擎优化指南

  14、网站301跳转(重定向)正确操作

  --------------------------

  15、网站流量统计工具收集

  16、WWW与不带WWW的域名区别

  17、域名年龄对SEO排名影响

  18、百度搜索与谷歌搜索命令汇总

  19、搜索引擎收录登录入口

  20、网站被百度降权了_如何解决

  21、怎样提高百度快照更新频率


关键词:

  搜索引擎抓取系统概述()

  编者按:站长朋友们,今后定期都将在这里跟大家分享一些有关搜索引擎工作原理及网站运营相关的内容,今天先简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。

  互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被叫做:BaiduspdierGooglebotSogou Web Spider等。

  Spider抓取系统是搜索引擎数据来源的重要,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。

  1spider抓取系统的基本框架

  如下为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。

1.png

  2spider抓取过程中涉及的网络协议

  搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。spider抓取系统直接涉及互联网资源提供者的利益,为了使搜素引擎与站长能够达到双赢,在抓取过程中双方必须遵守一定的 规范,以便于双方的数据处理及对接。这种过程中遵守的规范也就是日常中我们所说的一些网络协议。以下简单列举:

  http协议:超文本传输协议,是互联网上应用为广泛的一种网络协议,客户端和服务器端请求和应答的标准。客户端一般情况是指终端用户,服务器端即指网 站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送http请求。发送http请求会返回对应的httpheader信息,可以看到包括是否成功、服务 器类型、网页近更新时间等内容。

  https协议:实际是加密版http,一种更加安全的数据传输协议。

  UA属性:UAuser-agent,是http协议中的一个属性,代表了终端的身份,向服务器端表明我是谁来干嘛,进而服务器端可以根据不同的身份来做出不同的反馈结果。

  robots协议:robots.txt是搜索引擎访问一个网站时要访问的个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的。 robots.txt必须放在网站根目录下,且文件名要小写。详细的robots.txt写法可参考 http://www.robotstxt.org 。百度严格按照robots协议执行,另外,同样支持网页内容中添加的名为robotsmeta标 签,indexfollownofollow等指令。

  3spider抓取的基本过程

  spider的基本抓取过程可以理解为如下的流程图:

2.png

  4.spider抓取过程中的策略

  spider在抓取过程中面对着复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下简单介绍一下抓取过程中涉及到的主要策略类型:

  1、抓取友好性:抓取压力调配降低对网站的访问压力

  2、常用抓取返回码示意

  3、多种url重定向的识别

  4、抓取优先级调配

  5、重复url的过滤

  6、暗网数据的获取

  7、抓取反作弊

  8、提高抓取效率,高效利用带宽

  1、抓取友好性

  互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。

  通常情况下,基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一 个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。

  对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。

  2、常用抓取返回码示意

  简单介绍几种百度支持的返回码:

  1) 常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;

  2) 503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。

  3) 403代表“Forbidden”,认为网页目前禁止访问。如果是新urlspider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。

  4)301 代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

  3、多种url重定向的识别

  互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spiderurl重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。

  4、抓取优先级调配

  由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到优的抓取效果。

  5、重复url的过滤

  spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待。

  6、暗网数据的获取

  互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如百度站长平台”“百度开放平台等等。

  7、抓取反作弊

  spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。