搜索引擎工作原理

作者:鼎极网络发布日期:2019-11-13浏览次数:3

什么是seo ?

  SEO(Search Engine Optimization),汉译为搜索引擎优化。搜索引擎优化是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。

  SEO就是在了解搜索引擎排名算法的基础上,对网站进行站内和站外的优化,对网站存在的弊端加以更正,提高网站关键词在搜索引擎中的排名,获得更多流量与转化率,从而获得盈利。

SEO可分为站外SEO和站内SEO两种。

了解搜索引擎工作原理

站内SEO

站外SEO

排名算法

站长工具

案例分析

搜索引擎工作原理

爬行

抓取

预处理(索引)

排名

搜索引擎自动信息搜集功能分两种。

      1、定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

      2、提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。

步:爬行

    搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。

第二步:抓取

  搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行

爬行方式

               广度优先                                          深度优先

 1.png                                    2.png

 

 

影响蜘蛛爬行的因素

网站、页面权重高。

网站更新度:蜘蛛每次爬行都会把页面数据储存起来,第二次来的时候发现页面没有变化,就不再抓取。如果页面经常更新,蜘蛛来的也频繁。

导入链接

与首页的点击距离。

是否导出链接过多

是否有网站地图

是否设置404页面

第三步:预处理(索引)

 

 3.png

 搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

      1.提取文字(去除格式代码,留文字部分)

      2.中文分词

      基于词典匹配,词典匹配相对降低,准确性取决于词典的完整性与更新度

      基于统计,分析大量的文字样本,统计出字与字相邻出现的概率,几个相邻出现次数越多越可能形成一个词

      两种各有优缺点,一般混合使用

      3.去停止词

      停止词就是那些页面中出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。

      4.消除噪声

      绝大部分页面上的一部分内容对页面主题也没什么贡献,比如版权声明文字、导航条、广告等。所以搜索引擎在预处理的过程会把这些无关内容进行消噪处理。

      5.去重

      同一篇文章重复出现在不同的网站或同网站不同的网址上,搜索引擎不喜欢重复性的内容。

      索引前进行识别和删除重复内容;去重方法:选取一部分特征关键词(一般是出现频率高的词),十个左右,计算这些词的数字指纹(MD5算法);特征关键词有任何微小的变化,计算出来的数字指纹都有很大的差距。   

      6.正向索引

      经过以上步骤之后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引过程就是可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都会记录在案了。


文件ID

内容

文件1

关键词1,关键词2,关键词7,关键词10,…… 关键词L

文件2

关键词1,关键词7,关键词30, ……,关键词M

文件3

关键词2,关键词70,关键词305,……,关键词N

……


文件6

关键词2,关键词7,关键词10,……,关键词X

……


文件x

关键词7,关键词50,关键词90,关键词Y

 

      7.倒排索引

      正向索引还不能直接用于排名,因为在搜索某个关键词的时候,排名程序需要扫描所有索引库中的文件,计算相关性,这样的计算量无法满足实时返回排名结果的要求,所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,在倒排索引中关键词是主键,每个关键词对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词是,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。

 

关键词

文件

关键词1

文件1,文件2,文件7,文件58,……,文件

关键词2

文件l,文件7,文件30,……,文件M

关键词3

文件2,文件70,文件305,……,文件n

……

……

关键词:

鼎极seo是主要从事企业网站建设与网络推广服务以及移动互联网客户端,相关产品开发;
业务范围包括:企业网站策划、网页设计、网站建设、手机/微信站、APP、网络推广、企业邮箱、域名主机,及其它互联网相关产品服务。

联系我们
江苏省徐州市

网站被黑有何影响?

1、网站降权

网站降权是重要的一个影响,因为大多数网站都有数据库和文件备份,所以不可能被黑客全部毁掉网站,所以严重的应该是网站权重下降的问题,一旦网站被黑,网站之前做的所以的关键词排名会迅速下降,甚至没有,而这个恢复时间往往很漫长,特别是对企业影响极大。

2、网站信誉下降

如果是一个企业网站,出现了被黑,打开后又有产品,又有赌博之类的,客户自然不敢购买你的产品了,知道的人以为你网站被黑了,不知道的人还以为企业兼职在做赌博。

还很可能被用户举报,从而百度把网站列入不受信任网站,甚至有风险的网站,客户量大量流失。

3、风险提示

后一个就是安全联盟的风险提示,搜索某一个词,在搜索引擎的结果页面中显示红色字样的明显提示风险网站,打开时还会提醒这是一个风险网站,自然很难让客户相信你这个站点,这样的结果是网站基本没流量,也没关键词排名。

如何判断网站被黑

 

如果存在下列问题,则您的网站可能已经被黑客攻击:

 

1、通过Site语法查询站点,显示搜索引擎收录了大量非本站应有的页面。

 

2、从百度搜索结果中点击站点的页面,跳转到了其他站点。

 

3、站点内容在搜索结果中被提示存在风险。

 

4、从搜索引擎带来的流量短时间内异常暴增。

 

注:site查询结合一些常见的色情、游戏、境外博彩类关键字,可帮助站长更快的找到异常页面,例如“site:www.esobao.com 博彩”

 

一旦发现上述异常,我们建议您立即对网站进行排查。包括:

 

1、分析系统和服务器日志,检查自己站点的页面数量、用户访问流量等是否有异常波动,是否存在异常访问或操作日志;

 

2、检查网站文件是否有不正常的修改,尤其是首页等重点页面;

 

3、网站页面是否引用了未知站点的资源(图片、JS),是否被放置了异常链接;

 

4、检查网站是否有不正常增加的文件或目录;

 

5、检查网站目录中是否有非管理员打包的网站源码、未知txt文件等。

 

温馨提示:若直接访问网站时一切正常,但在百度的搜索结果展现了异常的快照内容,这可能是黑客做了特殊处理,只让百度蜘蛛抓取到异常的页面,以此来增加隐蔽性,让站长难以发现;同理,若直接访问网站正常,但从百度搜索结果页进行访问时,出现了异常页面,这是黑客针对百度来源(refer)做了特殊处理。

网站被黑了怎么办?

在这个水深火热的互联网战场上,很多站长都遇到同行业的恶意攻击,黑客入侵等等安全性受到威胁的问题吧。小编当然也不例外,做优化两年多,间间断断的也与黑客斗争了两年多,从初的手无足策到现在的淡然处之,就让小编教你如何去冷静的对网站被黑吧。

1.png

 

首先,我们都知道,遇到了网站被黑,时间就是去先把别人恶意嵌入的代码什么的去掉,其次再来慢慢的寻找服务器或者空间的漏洞,来填补这些漏洞防止下一次再被攻击,而如何去寻找你服务器的漏洞呢,这就要查看黑客是如何进入到你的网站之中的,每一个服务器都会有一个网站的日志,一般保存的时间是一个月内的,你可以把这些网站日志拿出来分析。分析黑客是什么时候来你的服务器的,什么途径以及什么手法来你的网站的。日志这点很重要,这是我们分析网站漏洞的关键。

第二步就是我要说的如何来处理被黑的页面和信息!被黑的页面和信息千万不要盲目的去恢复,去删除。有的时候狡猾的黑客会在你网站里面嵌入隐藏的ASP/PHP程序,你盲目的去删除这些信息,你会发现你找不到下手的地方了。我们要做的就是顺藤摸瓜,找到黑客在我们服务器或者虚拟主机里面留下来的根茎,只有连根拔起才能根本性的解决问题。一般情况可以用安全钩等安全防护软件,来进行代码清理和扫荡,彻底的查出来网站空间所存在的攻击代码。而用杀毒软件查到网站的病毒之后先不忙着删除,一般比较有头脑的黑客不会简简单单的只留下一个后门,就拿我的网站来说吧,我的站是PHP的我删除了一个病毒之后,原本以为相安无事了。没想到过了1个星期,病毒有出现了,这就是吃一亏长一智啊。正确的做法是,看到网站里面的那个病毒之后。查看那个病毒的修改时间,那么网站根目录里面其他修改时间类似于这个病毒的基本上都会有嫌疑。

查出了对方所留下的病毒和后门,接下来就可以在我们步的网站日志中以这个后门为关键词,查找出来相关的IP段,通过这个IP段来分析黑客是以何种手法来攻击网站的。了解对方详细的入侵过程。因为毕竟只有有漏洞黑客才会利用你的漏洞留下后门来到你的服务器里面进行篡改。现在我们查出了漏洞的所在,及时的去更新或者修补这个漏洞。再把黑客留下的病毒和后门通通杀掉,实现根本意义上的通杀。

后就是修改一切网站、服务器、FTP等文件传输软件的密码,而本人建议好修改服务器的端口,超级管理员密码。毕竟小心驶得万年船嘛。而我们获得的那个IP,网站被入侵的日志分析,提交给当地的网警。接下来的事情交给网警处理就好了。

SEO解决办法

1、直接的方式:关闭网站

 

百度统计后台有关闭网站的功能,可以直接选择关闭。如果是个人小站还好,但如果是企业站的话,一般直接关闭网站就不太现实了,一旦关闭网站,企业损失一般很大。

 

2、彻底的方式:启用网站备份文件

 

在网站被黑之前,我们就要对相应的数据库和文件进行备份,这样能地网站的安全,同时网站遇到被黑的情况时也能很快的恢复网站的运营。

 

3、网站被黑后,要立马找出黑链,并迅速予以删除。

 

4、要及时提交死链给百度等主要搜索引擎,在一个404txt文档列出所有的死链,然后上传到FTP空间根目录下,把地址提交给百度即可。

 

5Robots文件的设置,把删除的死链的相关文件设置为不允许抓取。

 

6、坚持一段时间的高质量内容更新。

 

7、适当找一些高质量的外链。

 

8、经常更换一下系统管理员的密码,密码要足够强,好是数字、字母和符号的组合。

 

9、找程序员及时更新网站防木马程序,安装网站安全杀毒软件。有条件建议找专业做网站安全的公司来做安全维护。

 

10、定期对网站进行安全的检测:

 

1)分析系统日志、服务器日志,检查自己站点的页面数量、流量等是否有异常波动,是否存在异常访问或操作日志;

 

2)检查网站文件是否有不正常的修改,尤其是首页等重点页面;

 

3)网站页面是否引用了未知站点的资源(图片、JS等),是否被放置了外站的异常链接;

 

4)检查网站是否有不正常增加的文件或目录;

 

5)检查网站目录中是否有非管理员打包的网站源码、未知txt文件等。

 

强烈要求:定期做好网站安全监测,这样才能及时发现并解决问题,从而有效降低损失。

 

11、谨慎上传漏洞

 

上传漏洞往往是简单也是严重的,能够让黑客或骇客们轻松控制你的网站,可以禁止上传或着限制上传的文件类型,不懂的话可以找你的网站程序提供商。

 

12、目录权限

 

请管理员设置好一些重要的目录权限,防止非正常的访问,如不要给上传目录执行脚本权限及不要给非上传目录给于写入权。

 

13、数据库每天备份一次,文件每周备份一次,当然主要还是根据你网站的更新平率来定,当然也可以借助网站自动备份工具,方便快捷备份你的网站文件和数据库。