大数据与小应用--不可逆转的新浪潮

关于大数据,从去年开始,在全世界范围内与云计算、物联网、3D打印等一起,已经成为炙手可热的话题。但到底什么是大数据?大数据究竟有些什么特性?我们应该怎样应用大数据?它将给我们的生活带来什么样的变化?这些问题的探讨一直在进行,很多企业都在思考,如何在企业的IT建设中应用大数据,实现企业运营的创新。

大数据(big data),百度上的定义是:指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

IBM对于大数据特性的4V描述目前普遍为业界所接受:(1)Volume,数据体量巨大。从TB级别,跃升到PB级别;(2)Variety,数据类型繁多。不止包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等等。(3)Value,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。(4)Velocity,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。

如果单纯按这四个特征去理解大数据,也许会把大数据理解成为全量数据或者叫做全息数据。而这样的数据应用,似乎只有在超大型或者大型项目里才能建设起来,而这些与传统的数据仓库又有什么差别?

最早洞见大数据时代发展趋势的数据科学家之一舍恩伯格给出的三条大数据特征或许能够让我们更好地理解大数据。舍恩伯格的大数据特征可以用三个词语来描述:更多、更乱、相关性。

在这里的更多,是针对研究对象本身,要考虑与对象相关的更多维度的信息,而不是传统的企业内部信息,例如运营商在研究客户离网率预测的时候,不仅仅只研究客户的计费数据,也可以将客户的位置信息,甚至是在SNS网上的言论信息等增加进来。所以,大数据不一定能做到全量(而谁能够定义到底全量是什么呢?)而只是逐渐增加的“更多”。

更乱,是采集的数据噪音更多,甚至在研究某一问题时会对预测结果扰动较大的数据维度。这就需要运用互联网的“试错”思维,不断研究可能的在采集和数据处理过程中形成的噪音,反复实践,在大数据中淘出来最有用的“小数据”。上文提到的油价早知道应用中,开发者体会之一就是在对于SNS的文本信息的上下文处理的不断算法调整,剔出的噪音包括其它主题对于油价的干扰等,使得小数据集合更加精准。例如,某个相关大V在讨论出租车价格问题时说到,如果出租车价格上涨,那么油价也一定是上涨了。人脑对于这样的语言能够很快判断出来,主题是在讲出租车价格问题,而机器就很难明白这一点。如果从这样的句子中得到油价上涨的信息,则对于整个油价判断就是一个干扰。

相关性,是找到数据之间的相关性,对研究对象的发展进行更好的预测。Google的工程师能够比美国官方卫生部门更早地预测流行性感冒的例子就是一个很好的说明。Google的数据工程师不是病理专家,他们不可能知道流行性感冒的原因是什么,但是他们能够通过与流行性感冒相关的一些信息表现,预测到流行性感冒的即将到来。

从上述三个特征及举例来看,大数据应用,不只是国家战略,企业战略这样的大应用,它恰恰可以通过无数的与我们生活息息相关的“小应用”来不断推动发展,从高高的神坛中走下来,走入真正的市场应用。

笔者微信上关注的一个共用帐号“油价早知道”推送了这样一条信息:“油价早知道友情提示:根据油价舆情跟踪分析,6月22日凌晨油价或上调(概率超过70%),上调幅度约在100元/吨。”第二天,油价早知道继续提示油价上调消息,并且给出上调幅度0.1元/升,6月21日,油价早知道发布的消息就已经是发改委发布的油价提升通知。

油价早知道又一次提前三天预报了油价调整的信息,从上线以来,他们的预测准确率已经超过95%!这是一个典型的大数据应用的例子,这就是笔者看到的,在中国落地比较好的一个大数据小应用的例子。

但是,在大数据逐渐走入我们的日常生活的时候,我们也应该清醒地认识到,任何一门技术的发展,都是一个规范(制度)、技术、应用不断互相配合共同发展的过程。最近沸沸扬扬的“棱镜门”事件,就让民众对于大数据有了一个冷静的认识。6月17日,笔者在微博上写下了这样的一句话:“斯诺登事件终于将"数据权"提到公众视野,谁希望生活在1984里老大哥的统治下呢?有人想成为老大哥,但民众已不是上个世纪。大数据的第一个坎或者第一个发展断点逐渐显现。”

因此,尽快实现“规范(制度)、技术、应用”的匹配也应该是每一个从业者的责任。操纵着大数据技术的厂家可以更多地参与到基础规范研究中,应用探索者可以在不断深化应用的过程中积累经验,参与到基础理论的建设中。而担负着国家信息方向的相关部门更应该高度重视大数据规范(制度)的建设,毕竟,这不是哪一个行业或者企业能够单独完成的。

大数据的小应用,正在湍流不息地涌入到我们的生活当中,油价早知道就是一个很好的例子,有了这样的探索,相信与我们生活息息相关的健康早知道、旅游早知道、交通早知道、股票早知道…也不远了。

时间: 2024-11-10 14:26:21

大数据与小应用--不可逆转的新浪潮的相关文章

大数据开启行业化应用新浪潮

大数据开启行业化应用新浪潮 浪潮集团云计算暨大数据事业部总经理  王峰 2014年8月 从行业云到行业大数据 浪潮行业大数据实践 关于发展大数据的建议 大数据开启行业化应用新浪潮

大数据应用开拓军事变革新境界

跨越2012年,人类有个重要发现:过去的3年信息数据总量超过以往400年,人类社会发展的核心驱动力,已由"动力驱动"转变为"数据驱动":经济活动重点,已从材料的使用转移到大数据的使用.许多专家.学者疾呼,人类已进入一个数据爆炸性增长的大数据时代,更有甚者预测,2013年将是世界的"大数据元年".面对大数据发展,我们应当如何认识和研判,使大数据技术应用于军事领域,推进新军事变革深入发展?我们近日对国防信息学院研究所孟宝宏所长进行了专访. 大数据=海

大数据,小数据,哪道才是你的菜?

美国著名科技历史学家梅尔文•克兰兹伯格Melvin Kranzberg曾提出过大名鼎鼎的科技六定律其中第三条定律是这样的[1]"技术是总是配"套"而来的但这个"套"有大有小Technology comes in packages, big and small". 这个定律用在当下是非常应景的.因为我们正步入一个"大数据big data"时代但对于以往的"小数据small data"我们能做到"事了

银行运用大数据解决小微贷款难

文章讲的是银行运用大数据解决小微贷款难,对银行来说,互联网不是新事物,但大数据的运用是一个全新的技术手段.互联网大数据正在颠覆银行传统的信贷模式,尤其是面向小微企业的信贷模式. 通过一个大数据的信贷模型,银行的信贷审批中心可以自动计算出某个小微企业主可以获得多少贷款,这个审批过程只需要5分钟. 曾经困扰小微企业贷款的诸多问题,有望通过这个全新的技术得到解决. 简便高效: 互联网+银行催生"闪电贷" 阿里巴巴的互联网银行已经渐行渐近,互联网与银行的结合正在颠覆小微金融的生态链. 有业内人

大数据另一个方向——大数据变成“小数据”

大数据有两个发展方向.一个是方向大家比较熟悉的"数据收集.分析",借此了解客户需求.明确产品方向等等.我还在人工智能.机器学习等领域做了一些研究,思考怎样把这些先进的技术和数据技术综合在一起,让大数据不仅能帮人做决策,而且能够真正自己做一些简单决策,让人有时间和精力去做更复杂的决定. 另外一个方向是"数据即服务".亚马逊的AWS云计算是"基础设施即服务",Salesforce是"软件即服务".Splunk是做大数据的管理平台,

大数据,小数据,哪道才是你的菜

美国著名科技历史学家梅尔文?克兰兹伯格(Melvin Kranzberg),曾提出过大名鼎鼎的科技六定律,其中第三条定律是这样的[1]:"技术是总是配"套"而来的,但这个"套"有大有小(Technology comes in packages, big and small)". 这个定律用在当下,是非常应景的.因为,我们正步入一个"大数据(big data)"时代,但对于以往的"小数据(small data)&quo

SAS杨玥:大数据变小数据 数据分析层层递进

11月24日,由ZDNet至顶网主办,英特尔协办.VMware和SAS支持的主题为"大数据?政府决策的科学发展观"的第五届政务信息化高峰论坛在昆山举行.多位政务信息化专家.大数据实践精英及IT界意见领袖出席了会议,并在会上就大数据在政务信息化中的实际应用等问题进行了深入交流.其中,SAS政府行业高级经理杨玥从技术和应用各个层面分析数据价值发挥的特点和关键点,并总结出了企业在应对大数据时做好数据分析的要素. 数据分析分为两个阶段 大数据时代既有机遇也有挑战,杨玥认为目前最大的挑战是数据分

国双科技:将大数据变“小”

如今的营销圈子里,"大数据"一词正被津津乐道.观众们已经在不同场合聆听过各色人物对这个新新时代的真知灼见,其中"数据科学家"们的发言或许最具有实践意义--他们冲锋陷阵在收集.处理.分析数据的第一线,直面规模浩瀚的二进制代码,并试图将这些枯燥晦涩的字符转化为沉甸甸的财富.拥有如此"点石成金"般的炫酷能力,数据分析师成为当下市场稀缺的紧俏人才,甚至被<哈佛商业评论>预言为"21世纪最性感的职业". 祁国晟领导下的国双科

大数据,其实并不是新的概念和现象

"大数据",其实并不是新的概念和现象.早在1980 年代,美国就有人提出了"大数据"的概念.30多年来,由于信息技术的进步,各个领域的数据量都在迅猛增长,美国的企业界.学术界也不断地对这个现象及其意义进行探讨.最近这一两年,"大数据"这个概念在美国变得越来越流行.越来越重要.2012年3月,美国联邦政府宣布投入2亿多美元启动大数据的研发任务,并把大数据定义为和历史上的互联网.超级计算同等重要的国家战略.之所以上升到国家战略的层面,是因为随着数据的