搜索引擎工作原理

作者:鼎极网络发布日期:2019-11-13浏览次数:1

什么是seo ?

  SEO(Search Engine Optimization),汉译为搜索引擎优化。搜索引擎优化是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。

  SEO就是在了解搜索引擎排名算法的基础上,对网站进行站内和站外的优化,对网站存在的弊端加以更正,提高网站关键词在搜索引擎中的排名,获得更多流量与转化率,从而获得盈利。

SEO可分为站外SEO和站内SEO两种。

了解搜索引擎工作原理

站内SEO

站外SEO

排名算法

站长工具

案例分析

搜索引擎工作原理

爬行

抓取

预处理(索引)

排名

搜索引擎自动信息搜集功能分两种。

      1、定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

      2、提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。

步:爬行

    搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。

第二步:抓取

  搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行

爬行方式

               广度优先                                          深度优先

 1.png                                    2.png

 

 

影响蜘蛛爬行的因素

网站、页面权重高。

网站更新度:蜘蛛每次爬行都会把页面数据储存起来,第二次来的时候发现页面没有变化,就不再抓取。如果页面经常更新,蜘蛛来的也频繁。

导入链接

与首页的点击距离。

是否导出链接过多

是否有网站地图

是否设置404页面

第三步:预处理(索引)

 

 3.png

 搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

      1.提取文字(去除格式代码,留文字部分)

      2.中文分词

      基于词典匹配,词典匹配相对降低,准确性取决于词典的完整性与更新度

      基于统计,分析大量的文字样本,统计出字与字相邻出现的概率,几个相邻出现次数越多越可能形成一个词

      两种各有优缺点,一般混合使用

      3.去停止词

      停止词就是那些页面中出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。

      4.消除噪声

      绝大部分页面上的一部分内容对页面主题也没什么贡献,比如版权声明文字、导航条、广告等。所以搜索引擎在预处理的过程会把这些无关内容进行消噪处理。

      5.去重

      同一篇文章重复出现在不同的网站或同网站不同的网址上,搜索引擎不喜欢重复性的内容。

      索引前进行识别和删除重复内容;去重方法:选取一部分特征关键词(一般是出现频率高的词),十个左右,计算这些词的数字指纹(MD5算法);特征关键词有任何微小的变化,计算出来的数字指纹都有很大的差距。   

      6.正向索引

      经过以上步骤之后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引过程就是可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都会记录在案了。


文件ID

内容

文件1

关键词1,关键词2,关键词7,关键词10,…… 关键词L

文件2

关键词1,关键词7,关键词30, ……,关键词M

文件3

关键词2,关键词70,关键词305,……,关键词N

……


文件6

关键词2,关键词7,关键词10,……,关键词X

……


文件x

关键词7,关键词50,关键词90,关键词Y

 

      7.倒排索引

      正向索引还不能直接用于排名,因为在搜索某个关键词的时候,排名程序需要扫描所有索引库中的文件,计算相关性,这样的计算量无法满足实时返回排名结果的要求,所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,在倒排索引中关键词是主键,每个关键词对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词是,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。

 

关键词

文件

关键词1

文件1,文件2,文件7,文件58,……,文件

关键词2

文件l,文件7,文件30,……,文件M

关键词3

文件2,文件70,文件305,……,文件n

……

……

关键词:

鼎极seo是主要从事企业网站建设与网络推广服务以及移动互联网客户端,相关产品开发;
业务范围包括:企业网站策划、网页设计、网站建设、手机/微信站、APP、网络推广、企业邮箱、域名主机,及其它互联网相关产品服务。

联系我们
江苏省徐州市

  做SEO网站推广,都知道“内容为王,外链为皇”。百度去年7月发布公告称,新的超链算法仅信任小范围内的优质重要外链,垃圾外链无法提升权重,而且容易被K站。那外链还能做吗,当然要做,酒香也怕巷子深,对于每个站长来说,除了做好网站内容和服务外,还要让更多的人了解。根据2016年的网络环境,整理了这份外链指南,希望对大家的SEO之路有些帮助。

  1、媒体平台投稿

  写好的软文,加上链接和关键词,让那些热门的媒体平台收录后,就会被大量转载。媒体平台是很多小网站的信息源,具有非常广的传播空间,有利于增加外链,即使链接在传播时被抹去,软文中的关键词还是会被收录,并提升搜索排名的权重。这些媒体平台往往属于百度新闻源,新闻源对于网站权重提升会有很大帮助。

  常见媒体平台包括:

  搜狐媒体平台 http://mp.sohu.com/

  今日头条 http://toutiao.com/cooperation/

  百度百家 http://baijia.baidu.com/

  网易媒体开放平台 http://dy.163.com/wemedia/

  一般来说媒体平台的入驻要求会比较高,审核更严格,对于草根站长来说会有一定难度,但也并非高不可攀,只要有足够的耐心,就一样可以入住。下面以搜狐自媒体为例,给大家介绍下具体的入驻方法。

  进入搜狐媒体平台页面后(mp.sohu.com),有自媒体的“申请入驻”按钮,进入后步是信息登记,需要提交姓名、身份证号及照片等信息,第二步是自媒体账号申请,需要提交辅助材料。辅助材料很重要,如果你已经有名气或有自己的微信公众号,那就容易通过,如果没有的话,需要在一些站点上发表过署名文章,提交相应链接就可以了。 当然,如果资金允许的话,淘宝上会有不少提供此类服务的商家,效率可能。

  2、百度推广

  在百度产品中建设的外链都属于高质量外链,可建外链的地方有百度百科、百度知道、百度博客、百度文库等,在百度文库和百度百科中建设的外链效果好,对内容质量的要求也高,需要人工审核。

  3、友情链接

  友情链接的作用依然重要,如果是新站,找些权重高的网站带带,发展起来会更顺利。

  4、问答网站外链

  问答类的外链权重也是很高的,相关网站包括百度知道、爱问知识人、搜搜问问、天涯问答、PCauto快问、爱打听、淘宝问答、中华网问答、丁丁问吧、360问答等等。不少问答站看似不能留链接,其实是需要一些技巧,比如用手机提问,PC回答,只要多去测试,就能找到方法。

  5、分类信息及商铺

  常用的分类信息站包括赶集网、58、百姓网等,其价值在于它可以带来精准流量。在分类信息站上发布基于用户需求的帖子,以长尾关键词做标题,就可以引来精准流量。如果在内容中加入外链,还能起到提升权重的作用。

  如果发布的信息量足够大,实现长尾词霸屏也是有可能的。曾经有一家网站使用长尾词做了3000个商铺,2000多个分类信息,每个商铺中都留下了链接和联系方式,能带来的流量就非常可观了。

  6、网摘和搜藏

  网摘和搜藏在搜索引擎排名中的地位是比较高的,作为内容聚合站,很多内容是网友的真实分享,因此权重会比较高。多积攒一些账号,发布有价值的内容,对于网站推广还是很有帮助的。

  7、在论坛及社区留外链

  基于百度新的垃圾外链算法,简单发论坛外链的作用已几乎为零,所以那种签名、评论之类的外链就不要再用了。怎样让论坛和社区继续发挥外链作用,这里需要一些方法:

  (1)、直播贴。开个新帖,设定某一主题,不断释放价值,推送行业相关信息或者经验,在直播的过程中把这个帖子搞火,然后在帖子中嵌入自己的网站品牌词,在释放价值的过程中不断曝光品牌。

  (2)、答疑帖。设定自己是行业专家,昵称要与品牌有关,然后开设一个答疑帖,回答新手提出的问题,在问答的过程中促成顶贴,这样帖子火了,品牌也曝光了。

  (3)、资源帖。任何一个行业都有一定的资源需求,比如说制作一些资源,将作者的网址加在下面,注明,谁想免费使用,需要保留作者网址,然后把这些资源免费传播出去,就可以坐等收链接了。

  或者我们可以将这些资源搜集起来打包并加入广告,以免费的方式分享出去,要求网友留言留邮箱,实现顶贴效果,帖子火了,就可以实现引流。

  8、博客外链

  现在传统博客的外链作用已经很小了,需要达到足够的量才能有效果。同时不要把眼光局限在新浪、网易、凤凰、搜狐这些平台,很多社区的博客平台影响力也很大,比如:人人小站、豆瓣小组、西祠部落、太平洋博客、宝宝树博客,平台非常多,只要多观察,就会发现大量的外链平台。微博外链的作用正在上升,粉丝经济的影响力相当强大,需要多关注。

  如何寻找外链平台对于很多新手来说是很困难的事情,下面是寻找外链的一些方法。

  1、简单直接domain:网址,这个可以基本看到对手所发外链信息,当然在百度站长工具平台推出的今天我们也可以在这个里面查询下效果。因为这里可以看到该网址所有的外链接。

  2、学会使用Intitle(注:限制搜索范围在标题之中) 例子:intitle:关键词 (其实可以直接搜索外链平台汇总)

  3、跟同行朋友互相交换资源

  从事seo行业的朋友都知道,仅靠自己一人之力是寻找不到多少高质量外链资源的,这个时候我们就需要多与同行朋友交流互换资源。

  4、友情链接平台

  代表网站go9go友情链接平台 、chinaz站长交易平台等,需要找更多的直接百度搜索 “友情链接平台“就可以啦。友情链接跟网址导航站一样,都是输出连接站这类网站往往权重都特别高,这类网站通常收录及快,无疑是一条高质量的外链。

  5、开放分类目录

  代表网站chinadmoz开放分类目录网站、35分类目录等,同上输出类网址,因为网站本身的特殊性加上目前有限的开放目录网站,因此这类资源变得尤为珍贵。

  6、网址导航站

  代表网站:hao123,输出类型网址同样属于高质量外链,我们要尽可能的区多做几个网址导航的外链。

  7、门户站博客

  新浪博客、搜狐博客、网易博客、百度博客、和讯博客 具体百度搜索博客网站大全就出来几百个。注:新浪博客基本秒收,用来做长尾词的排名还是可以的。

  8、行业站博客/商铺

  如阿里巴巴免费商铺、同行业B2B网站商铺等。这类网站跟博客一样属于二级域名范畴,我们在建立了商铺后不仅对我们的产品有推销作用,同时还给自己增加了一条外链。

  9、网络收藏夹/书签

  乐收收藏夹、qq书签等。每天做几条收藏效果也不错。

  10、各大网站/博客评论留言

  闲暇之余去热门的博客或各大热门的网站去留言、回复主题等。

  11、论坛社区

  论坛社区的挖掘方法第二条已提供:百度搜索:intitle:关键词 Powered by discuz!

  12、问答平台

  奇虎问答、搜搜问问、天涯问答、百度知道、新浪爱问等。如何去做问答网上有很多教程,大家自己去观阅。

  13、视频站

  优酷视频、六间房视频、土豆视频;平时没事随手到车间用手机拍下产品的制造过程、使用过程等,然后在发布到各大视频网站,顺便加上你的网址链接。

  14、分类信息/b2b平台

  如58同城、赶集网具体可以百度分类信息网址大全,b2b平台如阿里巴巴、慧聪、一呼百应等

  15、招聘类

  招聘类网站在填写公司简介和公司招聘信息时都是可以留入网址信息的,很多招聘类网站权重非常高,所以可以好好利用下了,在招聘的同时不妨给我们的网站留个外链。

  16、门户新闻投稿/付费投稿

  门户网站投稿:比如a5投稿、同行业门户站投稿等;付费投稿就是常见的买各大新闻网站的新闻外链,这个笔者不。

  17、RSS收藏/网摘

  抓虾 鲜果等

  18、查询缓存

  说直接点就是去各大在线站长工具网站查询网站收录、外链什么的会产生一个缓存,这时候正好被百度蜘蛛爬取然后收录到数据库,比如

  这种现象就是早期作弊工作喜欢用的将网址提交到各大在线站长工具网址里,然后一下可以增加N条外链等。这里警示我们一点不要太刻意的整这个东西,有时候查查被搜索引擎收录了起一个引蜘蛛的作用。

  19、百度产品

  百度开放平台自己去琢磨,百度知道、百度文库、百度贴吧、百度百科、百度空间等