流量统计系统汇编

2016年1月18日 | 分类: 【源码】

源起

1. 参加玉米网组织的茶话会,席间有朋友分享到流量分析的重要性。流量不仅可以用于SEO优化以获取最大停放收益,也是分析和确定潜在终端身份的重要情报来源——尤其在域名获得询价的阶段,更有必要分析此域名的近期流量情况。

2. 每个域名的报价,有必要制定一份《域名尽职调查表》作为参考。除了询价手机/QQ/邮箱/邮件服务器之外,流量时间分布情况,以及IP属性是重要参数。

比较

虽然CNZZ、Google Analytics等第三方统计服务可供选择,但有必要自行部署,定制化制作统计报表。AwStats、Piwik等可供研究。

参考:https://amon.org/piwik

Awstats 跟第三方统计服务是基于2种不同原理的统计方式,各有各好处只能互补,不能替换。

1. 开源统计系统

AWStats: Advanced Web Statistics

参考:https://amon.org/awstats

官网:http://www.awstats.org

介绍:http://baike.baidu.com/view/228748.htm

性能:http://www.neatstudio.com/attachment.php?id=691

AWStats是基于Perl的WEB日志分析工具。

  • 界面友好:可以根据浏览器直接调用相应语言界面。
  • AWStats可以实现用一套系统完成对自身站点不同WEB服务器:GNU/Linux/Apache和Windows/IIS服务器的统一统计。
  • 效率比较高:AWStats输出统计项目比Webalizer丰富了很多,速度仍可以达到Webalizer的1/3左右,对于一个日访问量 百万级的站点,这个速度都是足够的;
  • 配置/定制方便:系统提供了足够灵活但缺省也很合理的配置规则,需要修改的缺省配置不超过3,4项就可以开始运行,而且修改和扩展的插件还是 比较多的;
  • AWStats的设计者是面向精确的”Human visits”设计的,因此很多搜索引擎的机器人访问都被过滤掉了,因此有可能比其他日志统计工具统计的数字要低,来自公司内部的访问也可以通过IP过滤 设置过滤掉。
  • 提供了很多扩展的参数统计功能:使用ExtraXXXX系列配置生成针对具体应用的参数分析会对产品分析非常有用。
  • Awstats 的流量数据更加准确,因为所有请求都通过 HTTP 服务器,即使是一个小小的 gif 图片,还是一个微不足道的html页面,css,js … HTTP 的日志都会如实记录。通过分析 HTTP 服务器的访问日志得到最精确的流量数据,丝毫无差。但就因为这样,HTTP 日志里头有什么,它就只能出什么,单单就只是流量相关的参数。

AWStats 是一个免费的强大而有个性的工具,带来先进的网络,流量,FTP或邮件服务器统计图. 本日志分析器作为CGI或从命令行在数个图形网页中显示你日志中包含的所有可能信息. 它利用一部分档案资料就能经常很快地处理大量日志档案, 它能分析日志文件来自从各大服务器工具 ,如 Apache日志档案 s (NCSA combined/XLF/ELF log format or common/CLF log format), WebStar, IIS (W3C的日志格式)及许多其他网站,Proxy(代理服务器)、Wap、流量服务器、邮件服务器和一些 FTP服务器 .

Jawstats

官网:http://www.jawstats.com/

这是一款基于Awstat的PHP开源程序,提供了非常漂亮的分析统计结果的展示界面,支持中文。他的作者是 Jon Come。

JAWStats可以减轻AWStats的计算压力,同时安装非常简单,只要稍微修改一下配置文件就可以运行。配置项也可以非常简单。

JAWStats的使用界面也非常人性化,因为作者原来是一个UI工程师。在系统中,我们可以非常容易的在不同月份之间切换,还可以在不同站点的日志之间进行切换。也可以通过Web界面来进行分析数据的更新,正好切合我们的需求,只在需要看的时候出报表就好了。

JAWStats支持主题,可以进行主题的设计和切换。

总的来说,看完了JAWStats的介绍,觉得是比较推荐的一款产品。

 

goaccess

官网:http://www.goaccess.io/

日志分析工具就支持nginx。除此之外,因为goaccess因为不及于html页面进行的访问,而是在X windows或text mode下实时查看访客详情,所以其实时性和处理能力都比较强,其具体特点如下:

统计概况,流量消耗等
访客排名
动态Web请求
静态web请求,如图片、样式表、脚本等。
来路域名
404 错误
操作系统
浏览器和搜索引擎
主机、DNS和IP地址
HTTP 响应代码
引荐网站
键盘布局
自定义显示
支持超大日志(分析速度很快)
支持的日志格式

目前,这款软件支持Common Log Format (CLF) 和 Combined Log Format(XLF/ELF) 格式的日志。分析传统的apache格式日志当然毫无问题。同时,只要将nginx的日志格式定义为apache格式,对它的分析也不在话下(目前,redhat提供的nginx软件包默认日志格式和apache基本一致)。

GoAccess安装

其功能依赖glib2、GeoIP、ncurses 三个库文件,在Debian或Ubuntu可以直接通过apt-get来下载安装软件。自动解决软件的依赖问题。Redhat或CentOS本身不包含GeoIP包,可以通过第三方源rpmforge来解决依赖关系。具体rpmforge的使用,可以参看我的另一篇日志——CentOS官方推荐的RPMforge软件仓库安装方法。

安装完第三方源rpmforge后,就可以通过yum解决goaccess所需的依赖关系包了。

yum install glib2 glib2-devel GeoIP-devel  ncurses-devel
wget http://nchc.dl.sourceforge.net/project/goaccess/0.4/goaccess-0.4.2.tar.gz
tar zxvf goaccess-0.4.2.tar.gz
cd goaccess-0.4.2
#启动ip归属地查询、和utf8编码格式支持
./configure –enalbe-geoip –enable-utf8
make && make install

 

2. 第三方统计服务

讨论:https://www.zhihu.com/question/38000812

https://www.cnzz.com/

应用:

  • NameTao/WhoisDog的日常流量统计。

优点:

  • 添加统计对象域名列表

https://analytics.google.com/

优点:

  • 国际大牛

http://www.heapanalytics.com/

不知道

http://www.growingio.com/

不知道