网站日志分析教程

作者:鼎极网络发布日期:2019-11-13浏览次数:6

日志分析

 

1.什么是网站日志,从网站日志里面外面能得到什么?

 网站日志:服务器记录了用户在网站上面的一些行为信息

 内容包括:访客的IP地址 访问的时间  访问的方式  访问的协议  访问的状态码  访问的页面  访问了页面的大小  访客的操作系统以及使用的浏览器版本及内核

2.如何获取网站日志

  登陆FTP     Weblog文件夹  下载

3.常见返回状态码:

    200  返回成功 可以正常访问

301  重定向   集中权重     

302  临时重定向

    304状态码 如果客户端发送了一个带条件的GET 请求且该请求已被允许,而文档的内容(自上次访问以来或者根据请求的条件)并没有改变,则服务器应当返回这个304状态码。简单的表达就是:客户端已经执行了GET,但文件未变化。

    403  forbidden 服务器拒绝访问  权限问题    服务器不支持这个脚本运行

404  访问的页面不存在 not found (404错误页面)

500  并发数超了()在某个时段内所允许的大访问数量(15s

    503  服务器宕机(由于超载或进行停机维护)

 

4.IIS日志各字段讲解#Fields: date time s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs-version cs(User-Agent) cs(Referer) cs-host sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-takendate:发出请求时候的日期。
time:发出请求时候的时间。注意:默认情况下这个时间是格林威治时间,比我们的北京时间晚8个小时,下面有说明。

s-sitename:服务名,记录当记录事件运行于客户端上的Internet服务的名称和实例的编号。
s-computername:服务器的名称。

s-ip:服务器的IP地址。

cs-method:请求中使用的HTTP方法,GET/POST

cs-uri-stemURI资源,记录做为操作目标的统一资源标识符(URI),即访问的页面文件。

cs-uri-queryURI查询,记录客户尝试执行的查询,只有动态页面需要URI查询,如果有则记录,没有则以连接符-表示。即访问网址的附带参数。

s-port:为服务配置的服务器端口号。
cs-username:用户名,访问服务器的已经过验证用户的名称,匿名用户用连接符-表示。
c-ip:客户端IP地址。

cs-version:记录客户端使用的协议版本,HTTP或者FTP

cs(User-Agent):用户代理,客户端浏览器、操作系统等情况。

cs(Referer):引用站点,即访问来源。
cs-host:记录主机头名称,没有的话以连接符-表示。注意:为网站配置的主机名可能会以不同的方式出现在日志文件中,原因是HTTP.sys使用Punycode编码格式来记录主机名。

sc-status:协议状态,记录HTTP状态代码,200表示成功,403表示没有权限,404示找不到该页面,具体说明在下面。
sc-substatus:协议子状态,记录HTTP子状态代码。
sc-win32-statusWin32状态,记录Windows状态代码。
sc-bytes:服务器发送的字节数。
cs-bytes:服务器接受的字节数。
time-taken:记录操作所花费的时间,单位是毫秒。

 

5.分析工具

 5.1 光年日志分析工具

 5.2 excel表格

 5.3爱站工具包日志分析

  日志的简单分析

  1)注意那些被频繁访问的资源

  2)注意那些你网站上不存在资源的请求。常见的扫描式攻击还包括传递恶意参数等:

3)观察搜索引擎蜘蛛的来访情况(看网站的抓取情况)

问题

  1、新站刚上线,看看搜索引擎有没有来你网站抓取了;

  2、网站收录异常,或者被k,通过日志可以了解搜索引擎是否还有来光顾你的网站;

3、对于网站的问题进行解决,必须要读懂日志;

  、基础信息

  我们从日志中能够获取哪里基础信息呢?总抓取量、停留时间(h)及访问次数这三个基础信息,可以从光年日志分析工具中统计出来。然后,通过这三个基础信息算出:平均每次抓取页数、单页抓取停留时间。然后用我们的MSSQL提取蜘蛛抓取量,根据以上的数据算出爬虫重复抓取率。

  查看搜索引擎蜘蛛爬行总次数

  一个网站的收录首先要搜索引擎蜘蛛来到网站爬去才能够实现。通过查看日志能够清楚的看到每天蜘蛛访问网站的总次数有多少,从而大致的判断网站的权重如何。一个高权重的网站,蜘蛛来访的次数相对是较多的,相反,一个低权重的网站,即使有非常庞大规模的内容,蜘蛛来访的次数依旧有限。爬行次数有限,分配的时间和深度也就有限,所以收录也就受到了限制。所以我们的重点就是多提供百度来访我们网站的入口,只有入口多了,访问次数才能得到提升。

  平均每次抓取页数=总抓取量/访问次数 单页抓取停留时间=停留时间*3600/总抓取量 爬虫重复抓取率=100%—抓取量/总抓取量

  查看爬行榜前十名的页面情况

  除了查看蜘蛛总访问次数以及爬行目录的整体情况,剩下一个非常重要的就是查看爬行总页面的情况。我平时分析网站的时候,时常会看到,被蜘蛛爬行前几名的页面都是一些无关紧要的页面,比如B2C购物车链接页面、比如联系我们页面、一些主题中CSS文件,这些页面和文件对排名和收录本来没有实际的帮助,但现实情况是蜘蛛爬行的多,所以就会造成浪费,毕竟蜘蛛来访一个网站的总时间和总爬行次数是一定的,总抓取深度也是一定的,如果时间都浪费在了这些页面上,那么对于重点的内页收录就会受到影响。因此通过日志发现之后,就需要在robots.txt中屏蔽掉,或者在页面meta中屏蔽掉。

  查看平均爬行一次的抓取深度

  通过日志查看平均一次的抓取深度能有效的了解到网站内部结构的不足。比如百度蜘蛛在某天访问网站总共818次,抓取量是978,那么平均每次抓取的页面数就为1.2页。其实这个数据也是普遍存在的现象,很多网站都存在这样的现象。这充分说明了网站的内部链接做的不足,或者网站结构存在问题,或者是内容出现了高度重复现象,导致蜘蛛来到网站,要么没有什么新发现,要么被结构所阻止,爬行不到新的页面。毕竟,蜘蛛平均在我们网站存在的整体时间是有限的,在这个有限的时间内,如果我们自己设置了障碍,那么蜘蛛就会走掉,是非常可惜的事情。

  目录抓取情况

  用MSSQL提取出爬虫抓取的目录,分析每日目录抓取量。可以很清晰的看到每个目录的抓取情况

  通过日志查看所有被爬行目录的整体情况,能让我们知道搜索引擎爬行多的目录是哪些,是否是我们想要提供给用户的目录。一般可以非常清楚的看到排名前十位的目录,如果这些目录并不是我们重点提供给用户内容的目录,那么就需要做出调整,说明当前的一些目录被多度爬行了,而真正有价值的目录没有被搜索引擎过度重视,要及时发现并找到原因。

  第二、时间段抓取

  重在分析每日的抓取情况,找到相应的抓取量较为密集的时间段,可以针对性的进行更新内容。同时,还可以看出,抓取不正常情况。服务器是否稳定,是否被攻击

  第三,IP段的抓取

  每日每个IP的抓取量,同样我们需要看整体,如果IP段没有明显的变化的话,网站升降权是没有多大问题的。因为在网站升权或者降权的时候,爬虫的IP段会更换的。

  第四,状态码的统计

  在这个之前你需要了解下,HTTP状态码返回值代表是什么。

  如果你的网站出现太多的304,那么一定会降低搜索引擎的抓取频率以及次数

  4)观察访客行为应敌之策:

  1、封杀某个IP

  2、封杀某个浏览器类型(Agent)

  3、封杀某个来源(Referer)4、防盗链

  5)文件重命名作用:

  1.对访问时间进行统计,可以得到服务器在某些时间段的访问情况。

  2.IP进行统计,可以得到用户的分布情况。

  3.对请求URL的统计,可以得到网站页面关注情况。

4.对错误请求的统计,可以更正有问题的页面。


6.日志分析思路

图片.png 

 

  代码 说明

  100 (继续) 请求者应当继续提出请求。 服务器返回此代码表示已收到请求的部分,正在等待其余部分。

  101 (切换协议) 请求者已要求服务器切换协议,服务器已确认并准备切换。

  2xx (成功)

  表示成功处理了请求的状态代码。

  代码 说明

  200 (成功

关键词:

  关键词布局策略

  对于大多数SEOer来说,做网站优化就是做关键词排名,在关键词优化中,关键词的布局应该是我们seo优化人员应该优先考虑的一点。要想使网站排名稳定上升,必须站内+站外同步做起。竞争力不大的关键词,通过外链便可以把词做起来,再通过高质量的友情链接便可以使排名稳定,至于网站中比较难做、竞争力度很大的关键词就必须从网站的内部开始优化,同时还要从外部建立链接资源。下面是关于网站优化中的关键词布局。

  关键词的布局

  一、网站整体的关键词布局

  当我们拿到一个站时,首先要考虑的就是关键词的布局。其中包含核心关键词,目标关键词,长尾关键词的分布情况。并不是把所有要优化的词都放在首页,什么核心关键词放首页啦,目标词放在栏目页啦,长尾词放在内容页啦,这些都要合理的布局。

  二、首页、栏目页的关键词布局

  下面我们先来分析一下网站的META标签:title,keywords,description上的关键词布局:

  1、title出现的关键词不宜过多,尽量控制在四个之内,主要的关键词放在左边,按照优先级排下去。关键词之间可以通过“-”、“|”、“,”这些符号隔开,效果是差不多的按照个人喜好运用即可。并且核心关键词出现的越早越好。对于中小型网站来说用关键词_网站名称的做法是比较合理的。

  2、Keywords,就是关键词,现在的主流搜索引擎都不再依靠中的关键字了,因此,这部分内容我们也只是“例行公事”,个人觉得意义不大,不过总好过没有。

  3、Description,就是描述,应该用近乎描述的语言写下一段介绍你网站的文字,在这其中,你应该适当的对你网站的特色内容加以重复以求突出。

  4、在页面中多次出现这个关键词,并在次出现时,加粗或者用H1标签进行标注。核心关键词应该尽早的出现在页面中,这样搜索引擎会才会认为这个网页是围绕这个关键词来组织内容的,指导搜索引擎来确定网页的关键词,这里多说一句,搜索引擎并不会直接把keywords中出现的词作为网页的关键词来处理,而是根据网页的内容来提取的。

  5、首页关键词注意事项:避免堆砌,有许多站长喜欢在页面底部加上自己网站的核心关键词锚文本,并进行加粗,这点我们认为是不可取的,有不利的嫌疑,虽然搜索引擎不一定这么判定,但是我们要基于用户的角度出发,这里放置这些关键词锚文本用户是不会有点击欲望的,我们可以把核心关键词作为导航或者栏目,形成自然的锚文本,而不是在页面底部进行堆砌。

  三、文章页的关键词布局

  我们的内页和目录页一般都是用来优化长尾关键词,其实内页的关键词布局和首页基本差不多,首页一般是综合性的,而内页一般都是一篇文章或者产品或者新闻。那么内页的正文部分就要考虑到关键词的布局。一般我们写文章都按照总-分-总的布局来写,那么在总的部分,要集中关键词并加以总结,中间部分的内容围绕着关键词来合理布局,后针对关键词做总结自然的包含了目标关键词。

  在此再提醒大家一点:内页部分要在合理的位置放置首页核心关键词的锚文本,一般情况下放且只放置一个核心关键词的锚文本链接到首页,目的是增加首页核心关键词的权重提高首页关键词排名,前提是要合理,不可强行安插,如果文章并没有必要放置的情况下,我们不建议放置这个锚文本。

  以上所说的就是个人对关键词布局的总体看法,相信大家也都有自己的一套关键词布局方法。或许有博友会问,总体的布局好了,那平时发布文章时,关键词该怎么布局呢?比如:关键词密度、关键词位置设定等等。跟大家分享一下网站后期关键词布局优化的五点技巧:

  

关键词布局策略

  一、通过文章编辑,让文章中自然出现关键词

  百度搜索引擎和谷歌搜索引擎都在2012年对搜索引擎的算法进行了较大变革,有些网站因为这次变革收录量得到了大幅度的增加,这是对网站内容之前关键词布局的肯定,也是对以后网站关键词布局的一种指导,就是说每一篇容都合理的布局应该出现的关键词密度,让搜索引擎认为文章中的关键词出现是自然的,为网站的关键词进一步优化布局提供有利条件。

  二、合理布局关键词出现位置,让关键词被搜索引擎抓取

  不同的网站都有着不同的关键词,而合理的布局这些关键词位置就显得尤为重要,对于普通的网站来说,网站关键词出现的位置与网站优化息息相关,对于搜索引擎蜘蛛来说关键词出现的位置应该是有利于抓取的位置,而网站中有利于搜索引擎蜘蛛抓取的位置应该是网站的顶部与左部,可以合理的在这两个方向进行合理的关键词设置,网站关键词被搜索引擎抓取得越多,而其他内容也存在,这就可以为网站提高关键词排名起到促进作用。

  三、文章内部链接布局具备相关性,助力网站优化

  或许很多站长都做过这件事情,在写文章的时候往往都会出现另外一个网站的链接,而这些网站的链接大多都是不相关的,而这种布局关键词链接就出现了错误,不管是带上的超链接还是纯文本链接,首先关键词就要符合相关性,而链接中指向的内容也必须符合相关性,只有通过加强相关性的方法才能够自己的网站获得搜索引擎的重视,而搜索引擎也会认为你的网站受到了其他站点的支持,这对网站的优化会起到意想不到的作用。

  四、以用户为基础编辑网站关键词,创建高效用户体验

  网站关键词的选择并不一定要用行业的热门词,真正的关键词应该是符合用户体验为主的词语,比如seo这个词,很多用户在搜索的时候并不一定是搜索seo,而更多的应该是搜索如何学习seo,因此我们在关键词的布局之上就 要像如何学习seo、怎么学习seo进行倾斜,要满足用户的需求,以用户为基础编辑网站的关键词,而不是以自我为中心或者以行业为中心撰写网站关键词。

  五、文章标题一定带关键词,但一篇文章好只带一个关键词

  很多时候大家写文章都是随便写作,其实真正的文章应该在文章标题中就带上关键词,标题带关键词能够帮助搜索引擎直接抓取关键词,大家都知道搜索引擎在抓取的过程中不一定是将你的文章内容全部抓取,所以我们的标题带关键词就可以为网站的排名提升创造基础,如果你将关键词放在文章内容里面,而搜索引擎又不进行抓取,那么这样的文章是不是就浪费了,写文章的目的是什么?就是为了有排名,有流量。如果连这点都不去关注的话,那就是浪费了文章资源了。

  SEO经验之谈:

  当网站内容都经过了细致的关键词布局之后,你就会发现网站的收录量逐渐增加,网站关键词排名也会大幅的提高,但有时一些长尾词会有下降的情况,这些起伏都是正常的,不用过多担心。

  要注意的是文件的相关性不仅仅是由页面本身来决定的,还有包括链接分析,域名被信任度等等其他因素。

  针对关键词的页面优化

  关键词密度

  网站首页文字不能太多,与关键词相比而言,文字多,不好控制关键词密度,特别是做网站时,一些固定位置的选择,比如导航,栏目,底部,图片属性,这些位置的关键词或许是固定的。好控制的就是文章标题了,如果标题中关键词突出,那密度就突然增高,如果文章标题没有包括关键词,那密度就会低,排名可能也会随着变化。常见的就是cms网站,首页文章多,一般都需要增加关键词密度。

  关键词密度控制在2%-8%为佳

  关键字密度就是我们所强调的关键词在网页中出现的次数与网页中其它文本内容的比例。相对于页面总字数而言,关键字出现的次数越多,那么总的关键字密度也就越大。关键词密度一般在2%-8%效果为好。既然强调的是次数,那肯定少了说明主题不突出,多了属于关键词堆积。关键词出现在哪些位置能提高关键词排名呢,关键词密度低了高了对排名有什么影响呢。

  标题中出现关键词过多真的好吗

  我们在选择关键词的时候,都会从标题关键词的设置开展整个页面的关键词设置,很多朋友都认为标题中多放几个关键词效果会好些,能展现在搜索排名中,强调关键词,那是以前搜素引擎不智能,现在搜索引擎看到这些会比较反感,特别是标题堆积一些广泛的词,标题长度过长,导致标题中关键词密度降低,同样得不到好的排名,更不用说流量。标题中同个关键词出现多不要出现3次,且有修饰成分。

  比如要设“网站建设”关键字,标题“网站建设,苏州网站建设,苏州网站建设公司”这样网站建设的密度在标题中就很高,且主题突出。标题中不要掺杂其他干扰成分,干脆利落,也不要把长长的公司名称放在后面或者前面,字数越少越好。

  关键词与描述标签中的关键词密度也要控制

  关键词标签中的关键词也不能太多,可以把标题中的几个关键词作为关键词即可,这个位置可以多放几个,是标题的扩展,可以在放几个与标题相关的长尾词,这个不多说。主要说下描述,描述不是随便放几个关键词就完事,他是一段说明,相当于公司的简介,这个站是做什么的,搜索引擎首先通过它来了解,如果这段描述不出现在搜索引擎搜索排名中标题的下面,说明你设置的就有问题。描述可以把关键词标签设置的几个词放进去,在组成合理的句子,不通顺,少加不需要的词,长度也控制在150字左右。

  HTML标签

  关键词应该出现在网页标题标签里面,标题标签Title Tag是目前很重要的一个因素,应该包含你重要的关键词。

  另外在描述标签Description Tag,关键词标签Keyword Tag,图像ALT标签都可以放入关键词,但注意不要关键词堆砌。

  关键词在网页正文中

  只要你正常的写文章,关键词必然会出现在文章正文中。好把关键词放在正文标题heading,H1-H3比普通文字有高一点的权重,这也很有逻辑性,因为标题自然是这篇文章应该讨论的内容。

  另外可以用黑体,斜体来强调关键词,但一两次就够了。

  可以在正文的前面,也就是段句话放入关键词,这也是一个比较重要的因素。

  还可以在网页底部放上关键词,当然要符合逻辑和语法,并对用户友好。

  URL中的关键词

  对英文网页来说,关键词出现在URL中,多少会有点帮助。对搜索引擎相关性算法的帮助可能很小,但其实对用户帮助蛮大的。因为搜索结果列在搜索引擎中时,用户可以从你的文件名就判断出这个网页是讨论什么的。

  关键词可以在域名里,也可以在目录名里,也可以是文件名,不过切忌关键词堆砌在URL中。

  关键词出现在链接中

  关键词应该出现在网页导出链接的链接文字中,这是相当重要的一方面。其实在某种程度上来说,导出链接中含有的关键词,比连向这个网页的外部链接中的关键词还重要。

  不仅是在你网站内部互相链接的时候需要以关键词为链接文字,也应该在文章中经常引用和指向其他相关文件,并以关键词为链接文字。