搜索引擎抓取系统

作者:鼎极网络发布日期:2019-11-13浏览次数:24

  搜索引擎抓取系统概述()

  编者按:站长朋友们,今后定期都将在这里跟大家分享一些有关搜索引擎工作原理及网站运营相关的内容,今天先简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。

  互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被叫做:BaiduspdierGooglebotSogou Web Spider等。

  Spider抓取系统是搜索引擎数据来源的重要,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。

  1spider抓取系统的基本框架

  如下为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。

1.png

  2spider抓取过程中涉及的网络协议

  搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。spider抓取系统直接涉及互联网资源提供者的利益,为了使搜素引擎与站长能够达到双赢,在抓取过程中双方必须遵守一定的 规范,以便于双方的数据处理及对接。这种过程中遵守的规范也就是日常中我们所说的一些网络协议。以下简单列举:

  http协议:超文本传输协议,是互联网上应用为广泛的一种网络协议,客户端和服务器端请求和应答的标准。客户端一般情况是指终端用户,服务器端即指网 站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送http请求。发送http请求会返回对应的httpheader信息,可以看到包括是否成功、服务 器类型、网页近更新时间等内容。

  https协议:实际是加密版http,一种更加安全的数据传输协议。

  UA属性:UAuser-agent,是http协议中的一个属性,代表了终端的身份,向服务器端表明我是谁来干嘛,进而服务器端可以根据不同的身份来做出不同的反馈结果。

  robots协议:robots.txt是搜索引擎访问一个网站时要访问的个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的。 robots.txt必须放在网站根目录下,且文件名要小写。详细的robots.txt写法可参考 http://www.robotstxt.org 。百度严格按照robots协议执行,另外,同样支持网页内容中添加的名为robotsmeta标 签,indexfollownofollow等指令。

  3spider抓取的基本过程

  spider的基本抓取过程可以理解为如下的流程图:

2.png

  4.spider抓取过程中的策略

  spider在抓取过程中面对着复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下简单介绍一下抓取过程中涉及到的主要策略类型:

  1、抓取友好性:抓取压力调配降低对网站的访问压力

  2、常用抓取返回码示意

  3、多种url重定向的识别

  4、抓取优先级调配

  5、重复url的过滤

  6、暗网数据的获取

  7、抓取反作弊

  8、提高抓取效率,高效利用带宽

  1、抓取友好性

  互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。

  通常情况下,基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一 个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。

  对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。

  2、常用抓取返回码示意

  简单介绍几种百度支持的返回码:

  1) 常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;

  2) 503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。

  3) 403代表“Forbidden”,认为网页目前禁止访问。如果是新urlspider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。

  4)301 代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

  3、多种url重定向的识别

  互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spiderurl重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。

  4、抓取优先级调配

  由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到优的抓取效果。

  5、重复url的过滤

  spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待。

  6、暗网数据的获取

  互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如百度站长平台”“百度开放平台等等。

  7、抓取反作弊

  spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。

 


关键词:

  如何给文章伪原创

  原创文章

  写作技巧

  软文写作现今已经成为站长必须掌握的技能之一,一篇的软文可以获得更多的效益。

  写好文章首先就要是自己有过亲身体验,这样的文章写出来才算的上是“干货”,有内容才容易引发他人的共鸣,写自己知道的、经历过的、平时工作过程中的一些发现、心得和经验。同时也要站在消费者的角度出发,去发现,理解他们所想的,所需要的,才能真正的吸引住客户。

  多看他人文章

  自己的经历总有被写完的,当黔驴技穷时不妨换个角度,多看他人的文章,分析文章中提出的一些观点或者方法,以及文章中提出的一些思路,不能只顾自己写,同时应当多看,在吸收经验之余给自己写作找到灵感的源泉。看他人的文章时也可以借鉴他人的文笔、写作思路,纳百家之长补己之短。

  多看行业新闻

  欲知天下事就必须多听多看,现代社会是一个资讯发达的社会,互联网又是社会发展的热点,每天都有日新月异的变化或者各种让人瞩目的事件,这一切都是写软文、写心得的好来源,通过关注行业内的焦点新闻、事件,写出自己的感受和评论。

  软文目的决定标题写法:拥有一些软文营销期间,才能发现软文内容的奇迹,尤其标题的写法是完全不同的,永远不要低估了网络用户的心理,传播目的是什么?对于不同目的的软文,其标题的写法也是完全不同的。

  软文的段要写好:终软文是需要永远寻找答案的,软文只是为了让用户继续游览段落,精准用户是什么?因为它是产生消费的欲望,软文从头到尾看完,有一种颠倒感觉,不过却又好像看到了想看的内容。

  软文要简洁、简洁再简洁!让网友只看一眼就能看到自己关心的、想要的内容。在这个信息爆炸的社会,简洁明了才能吸引到网友。

  软文要写的有吸引力,能把你的受众深深地打动或者是感动,让他们知道这篇软文是在帮助他们,而不是在做营销。

  软文的重要性

  (1)可以降低企业的广告成本

  往往一般的网络广告的成本是非常高的,比如百度竞价虽然比较精准,但是同行点击占据一部分广告费用,加大广告费用的耗损,硬性广告一般来说获得较好的流量,但是针对的用户群体不够精准,而且广告的费用很高。一篇或者一系列的软文的价格远远比竞价或者说硬性广告的费用低得多,而且一篇好的软文别人会免费帮助转载,扩大软文的传播范围,一篇好的软文会制造许多话题来引导别人讨论和对别人产生共鸣,让用户主动接受企业的信息。

  (2)可以辅助seo

  如果把软文发布到新闻源或者是权重比较高的网站上面,这样会有机会在上面留下链接来指向目标网站,这样可以提高网址的曝光率又可以提高高质量外链的数量,而且可以引导权重的传递。如果在文章中合理的嵌入相关的关键词,可以增加被别人搜到的机会。

  (3)可以提高和打造产品、品牌知名度

  企业品牌,需要使用软文提高知名度,是需要精心打造一篇好软文的强力打造,好的软文能够让读者不知不觉产生好的印象,让广大读者相信产品的知名度,知名度有了,产品品牌效果也就体现出来了。

  (4)提高网站流量

  一篇优质的好软文,可以为网站带来的流量是惊人的,而且软文所带来的流量的转化率往往都是比较高的,可以间接提高网站产品的销售量。

  这类不在对软文的编写做详细介绍,有兴趣的可以自己去学习;

  伪原创

  1概念

  所谓伪原创就是对一篇文章进行一定程度的修改。也指通过这种方法得到的文章。

  2方法

  修改标题是关键

  新闻软文标题其中有三点要把握好:

  1、标题看上去要有非常熟悉的简单的通俗的字眼;

  2、标题里要包含和读者利益相关的字眼;

  3、标题里要包含客户自己的产品关键字。

  标题

  一:标题要做到个性和有创意

  个性和创意能够激发人们内心的潜在诱惑,而且更加有吸引力,

  二:标题要有思想

  很多软文的标题都很空洞,这个标题往往给人们带来一种云山雾罩的感觉,不知道你想要说什么,表达什么,所以写标题也得有实物,有思想,有内涵,这样你的标题让人看一眼就知道你的文章将要表达什么,才会有进一步阅读的欲望,标题往往能够和热点关键词挂钩效果会!

  三:标题要传神生动

  标题实际上就是你文章的高度概括,是浓缩的精华,所以这个标题一定要生动传神才能够吸引人关注你的文章

  四:标题党不要做

  有时候真实的力量往往有感染力!

  标题的修改方法

  ① 数字替换法:比如标题:养颜排毒效果好-10大食盐美容功效,你可以进行适当的去除几个自己认为不是食盐美容功效的,或者增加一些食盐美容功效,都可以,至少你可以让搜索引擎至少认为你的标题就别树一帜;

  ② 词语替换法:顾名思义就是把词语的相关或者近义词替换一下,这样也可以达到换汤不换药的效果;

  ③ 文字排序法:可以通过打乱顺序让你的标题看起来更加的不一样。但是一定要记得不要误解了原标题的意思,即可。

  首尾段落总结

  一、标题与内容相关

  标题的修改,在于降低搜索引擎中的重复度,而非你修改过后,把原文的意思给面目全非,这样就失去了伪原创的初衷。不管标题如何进行修改,要忠于原文标题的本意;第二要加入更加符合浏览者需求的特色。只有这样,才会达到伪原创的效果。

  二、正文内容的修改

  1 首段总结法:给自己来写首段,就像引言的作用一样,如果你有精力,就看完全文做个总结,放在首段,如果觉得没时间看,那么也很简单:自己编,而且一定要融入自己网站的关键词;

  2 文中插入链接锚文本:想必大家都知道锚文本的作用,可以有助于提高相关的关键词排名,也可以他人采集你的资料的时候,把锚文本链接一并采集去,这样就相当于给你增加一条外链:你采集我,我就利用你,很公平的。 每200-300字之间,可以适当添加2-3个锚文本链接;

  3 尾部总结法:对整篇文章做个总结,其实对于搜索引擎优化,不仅仅是这些内容,但小的技巧上一定要注意,玩搜索引擎就是个细致活,所以不仅要会做,更要会思考,举一反三才能有快速的提高和进步;

  4 新增加图片:大家一定都会知道,一图胜千言的道理。虽然,大部分搜索引擎还不能够读取图片的内容,但是图片中的alt属性可以进行注释,也会给搜索引擎焕然一新的感觉,认为你的内容是新的而收录;

  5 段落替换法:这个方法就是把内容的顺序进行相互的交换,但是,一定要注意不要影响原文的阅读。尤其是一个操作方法,千万不可以使用,否则,你懂的。因此,此方法并不适应所有,逻辑性的文章切忌。

  6.段落复制替换法:相关的内容段落的直接复制粘贴,举例:假如我的第二段本是某篇文章的段,我为了收录的可能性提高,直接在其它页面复制了一段过来作为我的开篇,形成了我现在文章的这种内容格式。对于结尾,也可以进行类似的操作,或者,你自己直接写段总结等。当然,尾部的段落添加还有个更加简单的方式,如我在我的文章后加上版权信息等。

  7.关键词替换添加法:所谓关键词的替换和添加,除了是为了你的内容紧扣自己的关键词外,也是在一定的幅度上提升修改的服务和提供内容质量。具体如何操作,一般的都是在查找后,进行页面全部的替换,比如“seo”你可以用“seo网站优化”“网站优化”进行相关的替换工作。添加,也就是在文章某些内容里面进行相关的关键词添加。

  8.内容去除修改法:去掉一定内容,可以是段落,可是是某个段落里面的几个点,这个看你自己的尺度,就修改幅度而言,至少,全篇文章你修改幅度好保持在30%左右,当然,修改幅度越大,也就越受搜索引擎欢迎。

  3文章的寻找

  要写伪原创,步就是会找文章,比较好的找文章方法主要有:

  如何寻找文章:

  网站的内容来源大家都知道这是非常重要的,都知道好是相关性比较高的文章,那么如何寻找到这些高质量的文章呢?

  1、搜索引擎新闻(百度新闻搜索):按标题搜索时间排序,这样不仅文章相关,而且内容页很新,稍加修改就能收录。

  2、直接在搜索引擎上搜索:选择合适的新闻或者新闻源网站

  3、行业网站:每个行业机会都会有一个比较出名的行业网站,上面的行业资讯也都是有专门的编辑在维护,所以文章的质量是高的。

  4、竞争对手:竞争对手的网站新闻肯定是经过他精心寻找的,而且这种文章里也穿插了核心关键词的,所以这是非常好的资源。只要你把它复制到记事本里,里面的链接全部都被干掉了。接下来就是把那些词替换成你的链接!

  5、在知识问答分享平台找材料(百科等):许多时候,我们的网站文章,都是在陈述现象和解决问题。在百度知道、搜搜问问、新浪爱问这些问答平台,有许多人表达自己的见解,可以把答案搜集下来整理成一篇文章,把别人的想法综合形成自己的新想法,也做出一篇高质量的原创文。

  原创文章的寻找

  1、博客找原创文章;

  2、去英文站找原创文章;

  3、下载电子书;

  4、在报纸、书籍与杂志等找原创文章;

  5、去论文站找原创文章。

  6、未被搜索引擎收录的文章

  4级别

  等级.对文章标题进行修改,对段落或文字进行重排,加入文章的信息,丰富文章内容;

  第二等级.在的基础上加入本站的相关的信息,配以图片等。

  第三等级.收集整理文章

  第四等级.阅读思考总结后自己编写

  5作用

  我们知道,搜索引擎是喜欢原创性的内容,对于重复的内容,它会认为没有收录的价值。如果网站上大量的内容都是转载的,搜索引擎就会觉得整个网站没有多大的价值,从而降低网站权重。网站排名自然也不会很高。

  但是原创内容是比较有难度的,因此我们一般都是对转载的内容进行修改加工,使搜索引擎认为你的文章是原创的,从而会被收录。这样就达到了伪原创的目的。

  6建议

  1.如果你的网站是一个新站,当前网站的权重不高,如何让搜索引擎的蜘蛛首页找到你的网站页面并放入搜索引擎的数据库?其实有一个简单有效、省时省力的方法:充分利用网摘、百度收藏等工具,让百度蜘蛛更快的爬到你的页面上来。

  2.就是使用代码把网站加上自己的版权及内容页面的地址,别人采集的时候自动添加你的网站链接或者文章来源的具体链接地址,这样做收录虽然不会快,但后链接多了,你依然是原创内容。

  3.在自己的网站上发表“原创”文章,等到自己收录以后,再去其它的站点进行发表,同时加上自己的原文地址,这种办法很有效果,一些规模较大、影响较广的网站被采的机率很大,发到这些大的网站上,带来的流量非常可观。

  7技巧方法

  技巧

  文章的段和后一段都好是原创,才不会被搜索引擎认为是抄袭.但请注意,中间内容同样重要,一定要做整理,便于阅读.为了便于关键词排名而又不影响文章本身可读性的情况下,适量增加关键词次数对排名是有利的.(句必须包含相关关键词,,结尾同样. 一般一篇 400-500 字的文章,相关关键词出现3次左右)这样就会加大搜索引擎对你原创的认可度。

  方法

  1. 标题内容意思要和原标题相同,但是不要复制,必须含有关键词。标题中需要包含你的网站浏览者需要看到的因素,比如是做 QQ 站的,那么就应该在标题上凸显非主 流啊,QQ 空间之类的标题。 其实这一点对于很多人来说是废话,但也非常的重要,很多朋友为了真正的使搜索引擎认为自己的文章是原创,而将个标题改的面目全非,这样的结果不可取。

  2 修改标题是关键

  (1)词语替换法(必须保持可读性) 。同样也可以这样修改:“备战中考作文:小技巧让你的文章'亮'起来”这样在不删除文章内容的情况下 就可以让搜索引擎认为至少标题是原创的。 关键词的替换和位置的替换 我们在伪原创的时候肯定要对关键词进行修改,毕竟别人的文章是针对别人网站的主题来提炼的,虽 然有时候两个网站主题相同,也需要对关键词进行修改和替换,高度匹配和高度精准的关键词往往能抓住 更加精准的用户。不但要修改和替换关键词,连位置也要替换这样文章有你的思想,你的网站。

  (2)数字替换法。比如新浪教育的一篇文章,标题是:“备战中考作文:五招让你的文章”亮“起来”,在修改标题的时候, 就完全可以改成:“备战中考作文:三招让你的文章”亮“起来”取而代之的,就是将文章里不起眼或者你 看的不顺眼的两个特点删除即可。

  3.新内容新观点的添加。我们也可以对原文章添加新的内容和观点,这样让一篇文章更完整,观点更明确,主题更完善,伪原 创嘛,多加点内容不是坏事,可以大大的提高文章的可读性。对已经发布过的文章,搜索引擎已经抓取过 来会有记录,但是我们对伪原创做的够好的话,搜索引擎说不定会给的评价呢。 伪原创内容本来是一个不太成立的观点,毕竟经过修改过的文章也算是一篇新文章,只是这个“修改” 的度在哪里才使得“伪”这个观点得以名正言顺的。我建议大家多写文章,原创的要多写,伪原创也多改, 这样提高自己的文字表达能力之外,还能在写作中不断的提高自己。

  4、标签法:在特定的关键字后增加友情注释。 优点:增加用户体验,让客户可以 了解更多并不熟悉的专业名词,从而理解文章含义。 还可以 自然的重复关键字,增加关键字密度。 缺点:如果使用过多,会造成页面信息繁乱,降低用户体验。增加页面体积,降低加载速度。干扰原 有关键词布局和密度。

  5、拆分法:把原有连续的文章,平均的截取成为 2 段 3 段或是更多。 优点:降低 相似度、提高访问者浏览的速度、增加页面访问量 缺点:文章无法连续浏览,原有的一次性浏览变得繁琐,同时对 Title 标题的优化也有一定的不利, 因为会有重复。不过数量较小的情况下不会有什么大碍。

  6、规律性:如何让采集回来的文章尽快让搜索引擎收录呢?透过网站日志,我们可以看到蜘蛛爬行 次数在某个时间点上 都有一个高峰,根据论策的观察,在上升期添加文章,在到达顶峰之后,快照就会被 放出来。这样的高峰在 曲线上不止一个,我们添加文章的时候,好固定在某一个高峰前,这样,规律性 强,蜘蛛也会有规律的来抓取。 如果以上几种方法相互配合使用可以极大地降低页面相似度,提高页面在搜索引擎中的诚信度 按照以上方法,即使你伪原创,搜索引擎也会判定你是原创作品(这个就叫整合高明之处)。

  创新概念

  概述

  伪原创的意义在于对原文基础上的内容拓展和延伸。

  一篇文章随着时间的推移,它也会丧失时代的光彩,失去原来所具有的价值,在这个时候,我们就要对原文进行伪原创,把不适合时代需要的东西剔除掉,把现代的新观念增添上,一篇的创新型伪原创就这样诞生了。就如同一个原先用来装水的陶瓶,到了现代已经没有人使用了,那么你为它里面插上一束花,它就成了一个古色古香的花瓶,重新光彩照人。这就是创新型伪原创。