大数据小应用 概念需落地生根

  2013年6月19日,笔者微信上关注的一个共用帐号“油价早知道”推送了这样一条信息:“油价早知道友情提示:根据油价舆情跟踪分析,6月22日凌晨油价或上调(概率超过70%),上调幅度约在100元/吨。”第二天,油价早知道继续提示油价上调消息,并且给出上调幅度0.1元/升,6月21日,油价早知道发布的消息就已经是发改委发布的油价提升通知。

  油价早知道又一次提前三天预报了油价调整的信息,从上线以来,他们的预测准确率已经超过95%!这是一个典型的大数据应用的例子,这也是笔者看到的,在中国落地比较好的一个大数据应用的例子。

  关于大数据,从去年开始,在全世界范围内与云计算、物联网、3D打印等一起,已经成为炙手可热的话题。但到底什么是大数据?大数据究竟有些什么特性?我们应该怎样应用大数据?它将给我们的生活带来什么样的变化?这些问题的探讨一直在进行,很多企业都在思考,如何在企业的IT建设中应用大数据,实现企业运营的创新。

  大数据(big data),百度上的定义是:指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

  Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

  IBM对于大数据特性的4V描述目前普遍为业界所接受:(1)Volume,数据体量巨大。从TB级别,跃升到PB级别;(2)Variety,数据类型繁多。不止包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等等。(3)Value,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。(4)Velocity,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。

  如果单纯按这四个特征去理解大数据,也许会把大数据理解成为全量数据或者叫做全息数据。而这样的数据应用,似乎只有在超大型或者大型项目里才能建设起来,而这些与传统的数据仓库又有什么差别?

  最早洞见大数据时代发展趋势的数据科学家之一舍恩伯格给出的三条大数据特征或许能够让我们更好地理解大数据。舍恩伯格的大数据特征可以用三个词语来描述:更多、更乱、相关性。

  在这里的更多,是针对研究对象本身,要考虑与对象相关的更多维度的信息,而不是传统的企业内部信息,例如运营商在研究客户离网率预测的时候,不仅仅只研究客户的计费数据,也可以将客户的位置信息,甚至是在SNS网上的言论信息等增加进来。所以,大数据不一定能做到全量(而谁能够定义到底全量是什么呢?)而只是逐渐增加的“更多”。

  更乱,是采集的数据噪音更多,甚至在研究某一问题时会对预测结果扰动较大的数据维度。这就需要运用互联网的“试错”思维,不断研究可能的在采集和数据处理过程中形成的噪音,反复实践,在大数据中淘出来最有用的“小数据”。上文提到的油价早知道应用中,开发者体会之一就是在对于SNS的文本信息的上下文处理的不断算法调整,剔出的噪音包括其它主题对于油价的干扰等,使得小数据集合更加精准。例如,某个相关大V在讨论出租车价格问题时说到,如果出租车价格上涨,那么油价也一定是上涨了。人脑对于这样的语言能够很快判断出来,主题是在讲出租车价格问题,而机器就很难明白这一点。如果从这样的句子中得到油价上涨的信息,则对于整个油价判断就是一个干扰。

  相关性,是找到数据之间的相关性,对研究对象的发展进行更好的预测。Google的工程师能够比美国官方卫生部门更早地预测流行性感冒的例子就是一个很好的说明。Google的数据工程师不是病理专家,他们不可能知道流行性感冒的原因是什么,但是他们能够通过与流行性感冒相关的一些信息表现,预测到流行性感冒的即将到来。

  从上述三个特征及举例来看,大数据应用,不只是国家战略,企业战略这样的大应用,它恰恰可以通过无数的与我们生活息息相关的“小应用”来不断推动发展,从高高的神坛中走下来,走入真正的市场应用。

  但是,在大数据逐渐走入我们的日常生活的时候,我们也应该清醒地认识到,任何一门技术的发展,都是一个规范(制度)、技术、应用不断互相配合共同发展的过程。最近沸沸扬扬的“棱镜门”事件,就让民众对于大数据有了一个冷静的认识。6月17日,笔者在微博上写下了这样的一句话:“斯诺登事件终于将"数据权"提到公众视野,谁希望生活在1984里老大哥的统治下呢?有人想成为老大哥,但民众已不是上个世纪。大数据的第一个坎或者第一个发展断点逐渐显现。”

  因此,尽快实现“规范(制度)、技术、应用”的匹配也应该是每一个从业者的责任。操纵着大数据技术的厂家可以更多地参与到基础规范研究中,应用探索者可以在不断深化应用的过程中积累经验,参与到基础理论的建设中。而担负着国家信息方向的相关部门更应该高度重视大数据规范(制度)的建设,毕竟,这不是哪一个行业或者企业能够单独完成的。

  大数据的小应用,正在湍流不息地涌入到我们的生活当中,油价早知道就是一个很好的例子,有了这样的探索,相信与我们生活息息相关的健康早知道、旅游早知道、交通早知道、股票早知道…也不远了。

时间: 2024-09-20 11:01:32

大数据小应用 概念需落地生根的相关文章

大数据小数据,一天实现可视化分析

2014年7月24-25日,由iResearch艾瑞咨询集团主办的第九届艾瑞年度高峰会议在深圳华侨城洲际酒店成功举办.本届艾瑞峰会以"守正出奇·融合创新"为主题,汇集了来自互联网.新经济.科技相关行业的前沿公司领袖,共同诠释互联网行业守正出奇的变革路径, 寻找互联网企业融合创新的发展前景.       以下是永洪科技渠道副总裁王桐发表的以"大数据小数据,一天实现可视化分析 "为主题的演讲实录:             「王桐」:今天非常巧,前面两家公司都是我们永洪科

2014年大数据未来发展仍需面临三道关

文章讲的是2014年大数据未来发展仍需面临三道关,大数据从"概念"走向"价值",基于大数据的推荐与预测逐步流行,数据科学将兴起,安全与隐私成为重要问题,大数据产业成为战略性产业--这是中国计算机学会大数据专家委员会对"大数据"2014年十大趋势预测中的内容.在这份预测中,还包括数据商品化与数据共享联盟化,大数据生态环境逐步发展等.同时,大数据专家委员会预测,2014年,互联网和电子商务.金融(股市预测.金融分析).健康医疗(流行病监控和预测等),

大数据时代企业所需的三大技术

作为IT领域的关键词,"大数据"不断被大书特书,对其分析利用也备受关注.另一方面,靠IT技术.现有的组织和人才技能解决不了的难题也渐渐浮出水面.这就需要"分析数据及其与业务相结合的技术". 本文总结了将数据分析应用到业务中所需的技术,以及怎样在企业中实现有效的信息应用.同时,还列举了日本国内外的先进事例. 三大技术 下面,我们来看一下大数据时代企业所需的技术有哪些? 业务技能 这里的业务技能不是指提高业绩的能力,而是指将业务过程标准化.掌握各个过程中哪些信息需要输入

《大数据管理概论》一2.2 大数据融合的概念

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.2 大数据融合的概念 众所周知,大数据价值链是一个阶梯式循环过程:"离散数据→集成化数据→知识理解→普适机理凝练→解释客观现象.回归自然",每一个链条是对大数据的一次价值提升.为了实现这一价值,我们提出了大数据融合的概念,它是获取高品质知识.最大程度发挥大数据价值的一种手段,它的重要性毋庸置疑.但是,大数据的特征已经发生变化

《大数据管理概论》一第1章概  述1.1 大数据的基本概念

本节书摘来自华章出版社<大数据管理概论>一书中的第1章,第1.1节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 |第1章 概 述 1.1 大数据的基本概念 已故的图灵奖得主Jim Gray在其<事务处理>一书中提到:6000年以前,苏美尔人(Sumerians)就使用了数据记录的方法,已知最早的数据是写在土块上,上面记录着皇家税收.土地.谷物.牲畜.奴隶和黄金等情况.随着社会的进步和生产力的提高,类似土块的处理系统演变了数千年,经历了殷墟甲骨文.

大数据“小时代”中国技术峰会强势来袭

文章讲的是大数据"小时代"中国技术峰会强势来袭,今年全国普通高校毕业生规模高达699万,2013年的夏天被称为"史上最难就业季".事实果真如此吗?笔者认为,大学生找一份温饱的工作显然不难,难的是找一份适合自己的好工作.什么样的工作是好工作?这个问题仁者见仁智者见智,不过,薪水待遇绝对是衡量工作好坏与否的一个重要指标. 权威调查机构Dice Tech的2013 薪资Top 100调查显示,以Hadoop为首的大数据傲视群雄,成为了最赚钱的行业.换而言之,Hadoop无

将大数据存储云计算 仍需努力

云计算对于我们大部分人来说还只是一个遥不可及,只在脑海中有个大致概念的梦想.经常听到有人谈到他们自己关于大数据的策略"把所有的数据都存储在云服务中",这听起来似乎很美好,但我们尚不能明确的分辨这种策略是否是能成为一种有远见的方案,抑或只是一些人对他们在行业会议上所听到的某些专家谈话的一种简单的复制和重复. 大数据和云计算范例之间的重叠实际是如此地广泛,您可以声称您的企业正在利用现有的内部部署的Hadoop.NoSQL.或企业级数据仓库环境,进行基于云计算的大数据部署.但请务必记住,云计

【学习】粗懂大数据的基本概念,不涉及行业和具体技术

Big Data已经是被热炒的一个词汇.外行看热闹,内行开门道.对于这个"热词",我们没必要认为它是"西洋镜",理解我们过去对数据的运用,再延伸到当今信息爆炸的时代,应该会更容易理解. 对于任何事物(大数据),我们要抓住它的本质,沿着本质这条线寻找出解决之道.依托于所在的行业,环境,走出符合每个行业自身特点的解决方案.也许大家,觉得上述这句话很熟悉.我就是将历史观的方法,借鉴到技术上的.党报媒体常说结合马克思主义走中国特色的社会主义,我们能否可以说结合大数据拿出符合

大数据是市场“刚需”,也是“痛点”

在北大管理案例研究中心副主任.北大光华管理学院市场营销系主任彭泗清教授主持下,马谦以"To be Old&Wise you must first be Young&Stupid(只有经历年少无知才能获得成熟睿智)"的谚语开题,纵观历史讲述了科技的发展就是要对旧有逻辑进行革新.马谦认为,大数据的应用把旧有理念,如在新的领域和地域进行发展时所付出的代价大幅度降低.马谦也分享了商询创业逻辑,并对大家创业过程中遇到的问题进行了解答.马谦说:"作为创业者,要考虑外部环境