搜索引擎常用指令
————如何快速找到自己想要的结果
在百度和Google当中有一些常用的搜索指令,我们可以用这些搜索指令定制自己的搜索结果,快速高效地找到需要的东西。以下就是几个常见的指令和它们的使用方法,有兴趣的可以试试。
1.专业文档搜索指令:filetype:
这个指令主要用于查找文档、资料的时候使用,可以直接找出自己想要的文本格式的资料。
使用方法:在普通的查询词后面,加一个“filetype:+(文档格式)”对要的文档类型进行一个限定。(“filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、TXT、ALL等)
如:中国旅游地理 filetype:doc ,所搜索出来的就是所有叫中国旅游地理的DOC文档。需要其他格式的文档也只需要以此类推即可。
2.把搜索范围限定在网页标题中—— intitle:
我们互联网上有非常庞大数量的网页,搜索引擎辨别每个网页内容的重要途径就是查看这个网页的title标题,因为每个网页标题通常是对网页内容的集中归纳。因此,只需要把查询内容范围限定在网页标题中,往往能找到一些相关的网页和详细的内容,得到一个好的搜索结果。
使用方法:使用intitle:指令加上要搜索的内容
例如,搜索关于北京房山租车的专门网页,可以这样子用:intitle:北京房山租车,这样子得出的结果往往比只用 北京房山租车 这个词搜索得到的结果要准确。使用的时候要注意,intitle:和后面的关键词之间不要有空格。
3.把搜索范围限定在特定站点中——site:
在一些时候,如果我们知道某个网站中有自己需要找的东西,就可以把搜索范围限定在这个网站中,这样能提高查询效率。不过这个指令只能查询到那些被百度收录的网页,百度没有收录的那些网页是查不出来的。
使用方法:在查询内容的后面,加上“site:(+网站域名)”。
例如,要找乐山乐水网站中关于上海导游的信息,就可以在百度搜索框输入:上海导游 site:www.ilsls.com, 所出来的就是乐山乐水网站内所有关于上海导游的信息了。要注意,“site:”后面跟的网站域名,不要带“http://”;另外,site:和网站域名之间,也不要带空格。
4.查询域名下的反链——domain
其作用就是来查询域名下的反链。和site指令类似,domain域名也可以知道网站的健康状况,domain自己的域名是否在首页。
domain小技巧:可以利用domain自己的竞争对手的域名,从而获取更多外链的发布平台,作为己用。
5.把搜索范围限定在url链接中——inurl:
跟网页title一样,网页的url中往往也会包含一些重要的信息,显示这个链接的性质和页面的内容。因此,我们在查找信息的时候,对搜索结果的url做某种限定,就可以获得良好的效果。但是目前国内许多网站对SEO的忽视,还有很多的链接中没有关键词,所以这个指令的效果没有intitle:的效果好,一定程度上限制了结果展现。
使用方法:用 inurl: 后跟需要在url中出现的关键词,由于通用网址是拉丁字母或者数字,所以后跟的关键词一般使用拼音或者英文。同样的,inurl: 指令和后面所跟的关键词间不要有空格。
例如,找关于北京朝阳区包车信息,可以这样查询:北京包车 inurl:chaoyang .上面这个查询串中的“北京包车”,是可以出现在网页的任何位置,而“chaoyang”则必须出现在网页url中。
6.匹配——双引号和书名号
如果输入的关键词比较长,百度在经过分析后,给出的搜索结果中的查询词就有可能是拆分的。如果我们对这种情况不满意,可以尝试让百度不拆分查询词,完全按照输入的关键词的字数和顺序给出搜索结果。这只要在输入的时候给关键词加上双引号,就可以。
例如,搜索 北京石景山导游 ,如果不加双引号,搜索结果就会被拆分,既有北京石景山 导游,也可能会有北京 石景山导游等等,效果不是很好,但加上双引号后,“北京石景山导游”,得到的结果就是完全按照 北京石景山导游 这几个字的字数和顺序的结果了,不会被拆分开来,这样就我们的要求。
书名号是百度独有的一个特殊查询语法,在Google不通用。给关键词加上书名号的查询词,有三种特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分,等同于双引号的作用;第三是可以将搜索结果的内容自然而然地区分出类别。 这个指令在查找一些有特定意义的电影或者书籍的时候就很有用。比如,查电影“神话”,如果不加书名号,很多情况下出来的是关于神话的五花八门的信息,而加上书名号后,《神话》结果就都是关于电影、书籍方面的了,自然的给分好类别了。
7.要求搜索结果中不含特定查询词
如果我们发现搜索结果中,有某一类网页是不希望看见的,而且,这些网页都包含特定的关键词,那么用减号语法,就可以去除所有这些含有特定关键词的网页。
例如,搜 哈利波特,但是不希望看到一些游戏方面的内容,就可以这样搜:哈利波特 –游戏,得到的结果中就不会有关于游戏的内容了。需要注意的是前一个关键词和减号之间必须有空格,否则,减号的功能就消失了。
8、不确定关键词的搜索指令—星号(*)
有时候我们在搜索一些内容的时候,会常常忘记忘记一些重要的内容,比如地名、人名、书名等,只记得当中的一两个字,这个时候就可以使用星号来解决。
使用方法:在关键词中使用 * 来替代相关内容。比如,在百度输入:大*市,由于 * 是可以代表任何字符的,所以结果中可能就会有:大理市、大连市、大丘市、大田市、大阪市等等,再根据进一步搜索找到自己的结果即可。
以上的搜索指令都可以组合使用,熟练之后能够极大地提高搜索引擎的效率,快速地得到满意的内容。
SEO常用指令的组合
一、site+inurl组合
作用:查询咱们单个栏目的收录量,这样以来就能够更加了解到咱们网站的一个具体收录情况。
用法:site:网站首页地址 inurl:栏目地址。
实际操作如下图:
二、site+intitle组合
作用:查询某一类特定文章的数量,这样可以很的得到我们想要的结果。
用法:site:网站首页地址 intitle:标题特定词。
实际操作如下图:
三、intitle+inurl组合
作用:主要的是可以用来寻找相关主题的外链资源。
用法:intitle:主题关键词 inurl:bbs
实际操作如下图:
百度基本搜索技巧
百度搜索引擎简单方便。仅需输入查询内容并敲一下回车键(Enter),即可得到相关资料。或者输入查询内容后,用鼠标点击“百度搜索”按钮,也可得到相关资料。
输入多个词语搜索
输入多个词语搜索(不同字词之间用一个空格隔开),可以获得更的搜索结果。
例如:想了解“广州皮带生产厂家”相关信息,在搜索框中输入获得的搜索效果会比输入“广州皮带生产”得到的结果。
在百度查询时不需要使用符号”AND”或”+”
百度会在多个以空格隔开的词语之间自动添加”+”。百度提供符合您全部查询条件的资料,并把相关的网页排在前列。
减除无关资料
有时候,排除含有某些词语的资料有利于缩小查询范围。百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格。
并行搜索
使用“A|B”来搜索“或者包含词语A,或者包含词语B”的网页。
例如:您要查询“广州”或“皮带”相关资料,无须分两次查询,只要输入“广州|皮带”搜索即可。 百度会提供跟“|”前后任何字词相关的资料,并把相关的网页排在前列。
相关检索
如果您无法确定输入什么词语才能找到满意的资料,可以试用百度相关检索。
您可以先输入一个简单词语搜索,然后,百度搜索引擎会为您提供“其它用户搜索过的相关搜索词语”作参考。您点击其中一个相关搜索词。
搜索引擎抓取系统概述(一)
编者按:站长朋友们,今后定期都将在这里跟大家分享一些有关搜索引擎工作原理及网站运营相关的内容,今天先简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。
互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被叫做:Baiduspdier、Googlebot、Sogou Web Spider等。
Spider抓取系统是搜索引擎数据来源的重要,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。
1、spider抓取系统的基本框架
如下为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。
2、spider抓取过程中涉及的网络协议
搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。spider抓取系统直接涉及互联网资源提供者的利益,为了使搜素引擎与站长能够达到双赢,在抓取过程中双方必须遵守一定的 规范,以便于双方的数据处理及对接。这种过程中遵守的规范也就是日常中我们所说的一些网络协议。以下简单列举:
http协议:超文本传输协议,是互联网上应用为广泛的一种网络协议,客户端和服务器端请求和应答的标准。客户端一般情况是指终端用户,服务器端即指网 站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送http请求。发送http请求会返回对应的httpheader信息,可以看到包括是否成功、服务 器类型、网页近更新时间等内容。
https协议:实际是加密版http,一种更加安全的数据传输协议。
UA属性:UA即user-agent,是http协议中的一个属性,代表了终端的身份,向服务器端表明我是谁来干嘛,进而服务器端可以根据不同的身份来做出不同的反馈结果。
robots协议:robots.txt是搜索引擎访问一个网站时要访问的个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的。 robots.txt必须放在网站根目录下,且文件名要小写。详细的robots.txt写法可参考 http://www.robotstxt.org 。百度严格按照robots协议执行,另外,同样支持网页内容中添加的名为robots的meta标 签,index、follow、nofollow等指令。
3、spider抓取的基本过程
spider的基本抓取过程可以理解为如下的流程图:
4.spider抓取过程中的策略
spider在抓取过程中面对着复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下简单介绍一下抓取过程中涉及到的主要策略类型:
1、抓取友好性:抓取压力调配降低对网站的访问压力
2、常用抓取返回码示意
3、多种url重定向的识别
4、抓取优先级调配
5、重复url的过滤
6、暗网数据的获取
7、抓取反作弊
8、提高抓取效率,高效利用带宽
1、抓取友好性
互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。
通常情况下,基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一 个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。
对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。
2、常用抓取返回码示意
简单介绍几种百度支持的返回码:
1) 常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;
2) 503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。
3) 403代表“Forbidden”,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。
4)301 代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。
3、多种url重定向的识别
互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spider对url重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。
4、抓取优先级调配
由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到优的抓取效果。
5、重复url的过滤
spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待。
6、暗网数据的获取
互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如“百度站长平台”“百度开放平台”等等。
7、抓取反作弊
spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。