网站日志是网站的 Web 服务处理程序,根据一定的规范生成的 ASCII 文本。它主要记录了网站访问记录数据内容,是网站分析和网站数据仓库的数据基础来源,而网站分析和数据分析也将对 SEO 产生一定的影响,所以了解 Web 日志的格式和组成将有利于我们更好地进行网站数据的收集、处理和分析,从而更好的进行网站优化。
114.119.132.228 - - [19/Nov/2022:13:43:34 +0800] "GET /robots.txt HTTP/1.1" 200 23 "-" "Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot)" "-"
116.179.32.101 - - [19/Nov/2022:13:43:46 +0800] "GET /bible/datacharm/ HTTP/2.0" 301 0 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" "-"
116.179.32.98 - - [19/Nov/2022:13:43:46 +0800] "GET /bible/datacharm HTTP/2.0" 200 4934 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" "-"
171.214.194.89 - - [19/Nov/2022:13:43:48 +0800] "GET /college HTTP/1.1" 200 5399 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36 (compatible;webkk-bot/4.1;+https://vsmvc.com)" "-"
171.214.194.89 - - [19/Nov/2022:13:43:48 +0800] "GET /reading HTTP/1.1" 200 6768 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36 (compatible;webkk-bot/4.1;+https://vsmvc.com)" "-"
171.214.194.89 - - [19/Nov/2022:13:43:48 +0800] "GET / HTTP/1.1" 200 16996 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36 (compatible;webkk-bot/4.1;+https://vsmvc.com)" "-"
171.214.194.89 - - [19/Nov/2022:13:43:48 +0800] "GET /bible HTTP/1.1" 200 6664 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36 (compatible;webkk-bot/4.1;+https://vsmvc.com)" "-"
116.179.37.223 - - [19/Nov/2022:13:43:49 +0800] "GET /static/lib/bootstrap-4.6.0/css/bootstrap.min.css?v=1635420308 HTTP/1.1" 200 24573 "https://www.helay.net/bible/datacharm" "Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)" "-"
可以看到这个日志主要由以下几个部分组成:
访问主机(remotehost): 显示主机的 IP 地址或者已解析的域名。
标识符(Ident): 由 identd 或直接由浏览器返回浏览者的 EMAIL 或其他唯一标示,因为涉及用户邮箱等隐私信息,目前几乎所有的浏览器就取消了这项功能。
授权用户(authuser): 用于记录浏览者进行身份验证时提供的名字,如果需要身份验证或者访问密码保护的信息则这项不为空,但目前大多数网站的日志这项也都是为空的。
日期时间(date): 一般的格式形如[22/Feb/2010:09:51:46 +0800],即[日期/月份/年份:小时:分钟:秒钟 时区],占用的的字符位数也基本固定。
请求(request): 即在网站上通过何种方式获取了哪些信息,也是日志中较为重要的一项,主要包括三种请求类型(METHOD),主要包括 GET/POST/HEAD 这三种。
请求资源(RESOURCE): 显示的是相应资源的 URL,可以是某个网页的地址,也可以是网页上调用的图片、动画、CSS 等资源;
协议版本号(PROTOCOL): 显示协议及版本信息,通常是 HTTP/1.1 或 HTTP/1.0。
状态码(status): 用于表示服务器的响应状态,通常 1xx 的状态码表示继续消息;2xx 表示请求成功;3xx 表示请求的重定向;4xx 表示客户端错误;5xx 表示服务器错误。
传输字节数(bytes): 即该次请求中一共传输的字节数。
来源页面(referrer): 用于表示浏览者在访问该页面之前所浏览的页面,只有从上一页面链接过来的请求才会有该项输出,如果是新开的页面则该项为空。上例中来源页面是 google,即用户从 google 搜索的结果中点击进入。
用户代理(agent): 用于显示用户的详细信息,包括 IP、OS、Bowser 等。
网站日志记录了网站访客的详细情况,我们可以通过网站日志在线分析系统来分析网民对网站的浏览情况,但在实际应用中,我们更多的是采用一些第三方的网站统计工具来监控访客对网站的访问情况。对于 Web 日志,我们需要重点关注的是各大搜索引擎蜘蛛对网站的抓取情况,这才是对我们 SEO 工作最直接的影响因素。