关于实时数据统计 优缺点与价值分析

  随着互联网的不断发展,信息更注重实时性,微博的风靡,搜索引擎相继推出实时搜索的功能,但是对于网站分析而言实时的数据是否更有意义呢?

  其实看数据看报表的人往往希望数据越实时越好,他们希望掌握网站每个小时甚至每十分钟的变化情况,能够对网站的当前状况了如指掌,能够发现问题并快速响应。但其实如果你问下他们在知道了网站数据的实时变化情况后,或者在某个时间段网站访问量突然剧增或者剧增,我们又能做些什么?我估计大多数人答不上来。刚好前段时间在做网站的实时数据统计相关的工作,所以有些想法在这里分享一下。

  实时统计的优缺点

  先不说实时统计到底有用还是没用,先看看如果需要获得实时的统计数据需要做些什么,以及实时的数据能够给我们带来什么,也就是实时统计的Pros and Cons。

  首先从技术的角度来看一下,很明显实时的数据统计需要更多的资源占用,因为网站分析的数据大部分是需要从点击流数据中计算得到的,并没有现成的结果数据可以直线获取显示。从点击流中获得的数据需要进行计算和汇总,无疑这些操作需要更多的成本,特别对于大型网站的大数据量处理而言,同时实时数据增加了实现的复杂度,并可能会在某种程度上增加数据的不准确性。

  但是实时的数据统计可以展现在技术层面上处理数据的能力,同时可以提供更丰富的报表展示,甚至在报表上使用动态的趋势图表进行实时刷新,在显示效果上自然不用说,所以有时候很多技术人员也很乐意做这些工作。

  再从数据应用和分析的角度来看一下,目前很多实时数据统计的结果用于展示网站实时流量的变化情况,哪个时间段的访问量最高,或者网站的整体活跃度最高,同时可以分析每天各小时的流量或用户数分布,但这些分析的对于网站到底有多大的意义?即使知道网站在晚上8、9点的时候有最多的在线用户,我们又能做些什么?网站的压力测试显然不需要通过这种方式来完成。

  所以个人认为实时统计更多的是对网站实时状态的监控,对于分析而言,没有多大的实际意义,至于能对网站的优化和决策支持起到多少作用,至少我还没有想到。

  记到Avinash Kaushik在书中提到过一句话:“Real-Time Data: It’s Not Really Relevant, and It’s Expensive to Boot.” 其实我对这句话非常赞同。很多人都会觉得获取实时数据将更有利于做出实时的响应,细粒度的数据也为数据的分析提供了更加细节的基础数据,我们可以基于此做更多的分析工作,但我们需要认清实时数据给我们带来的成本及其真正的价值到底能够体现多少。Avinash Kaushik同时还列举了5中典型的获取实时数据所造成的消极影响,大致可以概括为以下几点:

  不要一味追求数据的量,更应该注重数据的质,并通过有效的分析来体现数据的价值;

  不符合10/90的原则,实时数据在获取上的成本显然无法和分析价值达成1:9的比例;

  过多地关注实时数据会在分析工具的选择上造成拘束,无法使用真正优秀的网站分析工具;

  技术上的系统资源占用、任务调度以及复杂的流程;

  在某种程度上可能增加数据的不准确性。

  当然实时数据也不是一点价值都没有,只是出于其成本的考虑,没有必要对每个分析指标进行实时统计,或者花费大量的精力去关注实时数据。

  实时数据的价值

  其实无论是Google Analytics还是百度统计,都提供了部分指标的每小时的统计数据。百度统计将实时数据统计放在网站概况里面显示,也就是用户只要一登录就能看到当天的PV、UV等整点数据的变化趋势:

  

  而在Google Analytics中,可能我们会发现GA一般都是以天为单位显示各度量,但其实GA也有以整点统计的数据,只是潜藏的比较“深”,在Visitors—Visitor Trending里面,在Visits、Pageviews、Bounce Rate等报表中会发现右上方时间区间选择下面的时间汇总粒度多了一个选项——Hour,选择后就会看到每天个小时的数据变化趋势:

  

  实时数据也并非一无是处,Avinash Kaushik认为当一个公司具有快速的分析能力、快速的决策能力和快速的执行能力时,那么实时的数据就能创造其价值。我这里举几个我想到的应用,如果我们能够获取到每小时的统计数据,那么我们就能知道网站在哪个时间段具有最高的用户访问数,可以在这个时间段做些推广活动,并通过实时的数据统计分析活动的效果,做出快速合理的反应。比如“秒杀”活动就需要在极短的时间内完成统计并展示结果,当然前提是需要在后台的统计系统可以承受的条件下。

  最后还是借用Avinash Kaushik的一句话作为总结:如果只是为了看实时数据而进行实时统计,而不是根据实时数据做出相应的action,那么实时数据就是相当昂贵的。

  轮到你了,大家有什么在实时数据分析上的想法吗?也许可以让我之前实现的实时数据产生除了实时监控外更有价值的结果,欢迎留言评论。

  本文采用 BY-NC-SA 协议,转载请注明来源:网站数据分析 » 《关于实时数据统计》

原文地址:http://webdataanalysis.net/personal-view/real-time-data/

时间: 2024-08-02 06:10:16

关于实时数据统计 优缺点与价值分析的相关文章

采用ngxtop实现nginx实时访问数据统计_nginx

对于nginx的实时访问数据统计可采用ngxtop实现监控web server的访问情况 .ngxtop 允许你对 NGINX 的访问日志 (access log) 进行实时解析, 并输出类似 top 的有用信息. ngxtop 是 python 脚本安装包,需要python支持. 对于python的包和库文件我们一般喜欢pip管理,没有安装的可以: wget https://raw.github.com/pypa/pip/master/contrib/get-pip.py python get

HBase在数据统计应用中的使用总结

1. 数据统计的需求 互联网上对于数据的统计,一个重要的应用就是对网站站点数据的统计,例如CNZZ站长统计.百度统计.Google Analytics.量子恒道统计等等. 网站站点统计工具无外乎有以下一些功能: 1)网站流量统计:包括PV.UV.IP等指标,这些统计指标可以以趋势图的形式展示出来,如最近一周.最近一个月等. 2)IP来源信息统计:记录各个来源IP下的访问PV数. 3)访问来源分析:记录访客是从哪些途径到达本网站的. 4)搜索引擎及搜索关键词分析:对于各个指定搜索引擎带来访问PV的

Kafka实战-实时日志统计流程

1.概述 在<Kafka实战-简单示例> 一文中给大家介绍来Kafka的简单示例,演示了如何编写Kafka的代码去生产数据和消费数据,今天给大家介绍如何去整合一个完整的项目,本篇博客我打 算为大家介绍Flume+Kafka+Storm的实时日志统计,由于涉及的内容较多,这里先给大家梳理一个项目的运用这些技术的流程.下面是今天的内容 目录: 项目流程 Flume Kafka Storm 下面开始今天的内容分享. 2.项目流程 在整合这套方案的时候,项目组也是经过一番讨论,在讨论中,观点很多,有人

HBase在数据统计应用中的使用心得

1. 数据统计的需求 互联网上对于数据的统计,一个重要的应用就是对网站站点数据的统计,例如CNZZ站长统计.百度统计.Google Analytics.量子恒道统计等等. 网站站点统计工具无外乎有以下一些功能: 1)网站流量统计:包括PV.UV.IP等指标,这些统计指标可以以趋势图的形式展示出来,如最近一周.最近一个月等. 2)IP来源信息统计:记录各个来源IP下的访问PV数. 3)访问来源分析:记录访客是从哪些途径到达本网站的. 4)搜索引擎及搜索关键词分析:对于各个指定搜索引擎带来访问PV的

SAP大数据处理能力 延伸实时数据平台

本文讲的是SAP大数据处理能力 延伸实时数据平台,2012年5月18日消息,SAP公司日前发布了针对Hadoop环境的高级支持与集成,其中包括"大数据"合作伙伴理事会和多个用户展示.这些"大数据"集成功能将在基于 SAP HANA 平台的 SAP Data Services 和 SAP Information Steward 服务包版本 4 中推出.SAP同时还展示了其基于SAP实时数据平台的相关"大数据"实施,这些实施为用户带来了根本性的业绩改

网络已成播放营销主阵地 大数据助力影视数据统计

我常常追热播的电视剧,但是很少打开电视,都是从网上看.""90后"张晓这样说.像她一样,有越来越多的人已经改变了传统习惯,选择从网络而非电视上收看影视剧. 在这样的收视环境下,线上数据成为了影视剧播放.营销的主阵地.云合数据首席执行官李雪琳认为,"就中国影视剧市场而言,内容的变现方式已经逐渐转移到网络上,使数据的重要性得到了极大的提升."那么影视数据线上统计现状如何?未来又会有何新趋势呢? 现状:繁荣与虚假并存 "吴刚老戏骨,演得真好"

电力行业实时数据集成解决方案

一.方案概述 近年来,随着国民经济的迅速发展,电网规模日趋扩大,供电企业信息化水平不断提高,各种自动化应用方兴未艾,除自动化应用之外,供电企业还建设了大量的管理系统,为企业日常管理提供各种重要的服务. 然而,由于普遍缺少来自生产一线的自动化数据的支持,限制了管理系统其深层次应用功能的开发,致使管理应用停留在工单流转层面,对历史/实时数据的分析与统计,对监控.报警.趋势预测能力不足:各个应用系统分别来自不同的厂家,各种自定义格式杂乱且分散,难以管理及维护,造成了大量的资源浪费:管理系统与自动化应用

用户研究:有效问卷的数据统计

文章描述:用户问卷调查是一个比较常用的用研方法.方法本身有着一定的科学性,这个毋庸置疑.只是我们在审视或挖掘问卷结果时,尤其是用户的对于某个对象或事物的态度时,希望和其他客观数据结合,如:产品运营数据等.这样,我们得到的结论也许能够更接近于用户的真实情况.   大家是否对用户问卷的结果有过困惑.通过简单的问卷调查,我们无法根据用户对产品的态度结果去准确地预测用户如果在真实环境中的行为. 我们先来看一个案例: 当 Sony 引入 Boom Box 概念的时候,他们召集了一些潜在的消费者,组成焦点小

巧用ASP实现Web数据统计、报表和打印

web|打印|数据|统计 摘 要:本文阐述一种利用ASP实现Web数据统计.报表的基本思路和实现方法,同时提供一种巧妙调用Word打印报表的解决方案. 关键词: ASP,数据统计,报表,打印,Word 1. 引言 随着Internet的飞速发展,基于Web开发的业务应用系统越来越多,如办公自动化.电子商务和管理信息系统(MIS)等.这些Web业务应用系统经常涉及到数据的统计.报表和打印.ASP在实施动态交互和生成动态页面方面具有很大的优势,但在处理复杂数据统计.报表和打印时却遇到不小的麻烦.本文