大数据风起云涌背后的冷思考

  大数据风起云涌,走红IT界

  IT业从来不缺乏新概念、新名词、新技术,更新之快、推出之猛,令人目不暇接。

  继云计算、社交网络之后,如今大数据(Big Data)再度走火,风起云涌,似乎成为2012 年信息技术领域最时髦的词汇。

  Oracle、SAP、IBM 、微软等IT巨鳄,像是寻找到了新的金矿,开始全力挖掘大数据,多方位推广大数据理念,尤其是SAP的HANA和Oracle的Exalytics更是卖 力,争抢“头烫汤”。而众多中小IT厂商也跟着蜂拥而至,以分得大数据市场一杯羹。

  何为大数据呢?根据IDC的定义,大数据是指为了更经济更有效地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术,人们并用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。

  而相比大数据的突然兴起,以前以商业智能分析而著称的BI开发商却是难掩尴尬和失落的境况,甚至被逼退到边角。近年来,大数据给BI(商业智能分析系 统)带来了重大的冲击,发展步伐受到较大拖累。有人大胆预测,未来十年,有关大数据的商务智能分析将引领管理信息化的发展。

  从各种专业报道、 分析,我们可以看出,大数据呈现3种特性:Volume(数据量)、Velocity(处理速度)、Variety(数据种类)。Volume指的是数据量庞大,如今有许多企业已经面临单日数据量以数十、数百TB(万亿字节,1TB=1024GB)的速度增加,而总数据量也达到了PB(Petabyte) 等级,这样的数据量已让传统的数据库难以处理;Velocity是指企业数据增加的速度越来越快,诸如移动化、社交网络的广泛应用,使得数据增加的速度比传统的企业应用程式来得快很多,一旦数据增生速度越快,数据处理、分析的速度也就得跟上;而Variety则是指数据的多样性,时下上互联网不是只看看资讯,同时也不断在产出数据:上传照片、上传视频、发微博,另一方面,IT遍及工作生活中的各个角落,各种各样的传感器、监控器也时刻不断产生各种机器资讯,数据的型式已日趋复杂、多样了。这就催生了大数据技术的强烈需求。

  从一些主流厂家的产品介绍,我们可以发现大数据与BI一个主要区别在于:与传统基于事务的数据仓库系统相比较,其能在BI的基础上进行更大容量数据和非 机构化数据处理,大数据分析不仅关注结构化的历史数据,它们更倾向去对Web、社交网络、RFID传感器等非结构化海量数据进行更好地分析,整体相比BI 而言,大数据是一个完美的大提升。像Facebook、Twitter这样面临数据量大爆炸的网路公司,已开始用Hadoop、NoSQL等新兴技术来解 决海量信息问题,并取得了一定成效。

  大数据当立,BI当下?

  可见,如何解决日渐紧迫的大数据处理成了企业管理信息化、现代化的必然需求。不过,国内的大数据领域到底有多少活跃迹象?大数据真的有如一些厂商所描绘中的那么强大、好用,成为每个企业所必须的吗?

  在一片叫好声中,部分专家和业内人士则显得小心谨慎,甚至有不乏非议。一些专家认为,除了大量的研讨会,还有各类公司宣称进军大数据领域的雄心,其实际进展至今难见成效。许多企业CIO认为,国内能利用大数据背后产业价值的行业主要集中在金融、电信、能源、证券、烟草等超大型、垄断型企业,其他行业谈大数据价值为时尚早,大数据在企业的运用并不是说只要开放了数据、运用一些技术就可以轻易地发现“金矿”。目前国内大数据应用似乎正在呈现这样的状态:投资人活跃,技术和服务供应商热心,数字媒体高调,而大量应用企业迷惑。

  一些专家认为,从结果来看,对于大数据的质疑并没有比BI少,同样遭遇了“还差一公里”的尴尬。有人评价“大数据是个相对的概念,是在既有的方案上包装了一下,其处理方式是新瓶装旧酒,只不过更时髦。”海量数据时代的数据应用并没有给多少企业数字运算带来革命性的变化,在 MapReduce 、Hadoop(两者都是一种编程模型,用于大规模数据集的并行运算)出现之前,也有企业能够轻松的对数据进行大规模并行计算了,而 NoSQL 的出现也只是为处理数据的方式带来了更多可能性罢了,也并没有革命性的质的飞跃。

  从现在业界一些公司拿出来的大数据应用实例来看,依然只是在 利用传统意义上的数据分析与BI,只是巧妙地把这笔帐都记在了大数据上了。一家开发商说利用其大数据技术,一个电子商务网站能知道“什么地方的人买东西最 疯狂”或是“什么型号手机最好卖”,这就是大数据分析的结果。对此有专家反驳道“难道同样基于数据仓库系统的BI分析出来的结果和这个大数据出来的结果会 有不同么?的确从某些大数据应用中会挖掘出新的价值,但这个价值只是附加价值,没有理由去夸大它,更没有理由去无端的想象。大数据是机会,但只是少数人的机会,更多是巨头们的商业谋略。”厦门一位电子公司CIO也认为,“一些企业所需要的数据内容和运用,其实都可通过开源社区就能获取,传统列式数据也能能 很好地处理大数据。参加各种大佬们口沫横飞的会议,还不如和工程师聊聊可以运用什么更实用的工具来具体操练、发挥一下。”

  以推广大数据颇为卖力的 EMC公司为例,其 Greenplum核心产品线本身而言并没有太多的变化——仍然分为Greenplum Database(数据仓库)、Greenplum HD(Hadoop分析)和Greenplum DCA(数据计算设备),后者还是基于高性价比的工业标准x86服务器 的MPP(大规模并行处理)分布式可扩展架构。因此站在厂商的角度,如果没有更多的新颖有意义的东西,过多地投入资源来大量宣传推广显然不划算,防止最后 客户不买账。确实,海量增长的非结构化、半结构化数据中确实有值得更深挖掘的价值,但这并不等于人们就要一下子更换全新的方法、工具来处理它们。就像需求是渐进式的增长一样,业务的变革也要以渐进式为主,比较稳妥。

  什么惹眼就挂什么标签,什么有好处就往哪钻,这就是如今商家通行的招数。而面对“大数据”的流行,不少传统BI厂商最后也禁不住“诱惑”,纷纷摇头一变,都套上了“大数据”的外套,令人感叹。

  可以说,当前IT厂商心态日趋浮躁,急功近利,没有真正去认真研究客户需求、认真研究企业管理,而是还停留在炒作概念甚至捞一把就走的阶段。今天你一个 SOA,明天我一个EAI,今天你来网格计算,我明天来个云计算,你一个BI,我来个大数据,等等,都是各自从各自的技术特点去阐述各自软件的概念与应用, 引导用户投怀送抱,但没有几家能说清楚自己软件服务到底是个什么好东西,能给企业带来什么简捷实用的好处?性价比是否最优?反而五花八门的概念、定义,令 客户单位眼花缭乱,不知所措。在选择的时候看看这个也有点道理,那个讲的也好象对,但没有哪个厂商的系统真正令客户深感满意。

  再回来说说大数 据与BI。可以说,大数据与BI二者之间存在着深厚的天然联系,一对孪生兄弟,它们办公决策工作本身都是一种团队协作和协调,尤其是在数据挖掘和数据分析层面,并没多大的差别。同时,传统BI与大数据的关系,并不是互相替代、排斥的关系,它们犹如人的左脑和右脑,分工不同,传统BI以处理结构化信息为主, 大数据以处理非结构化、半结构化信息为重,它们相互依存、相互补充、共为一体,组成企业完整的信息化大脑。

  大数据的创新性、先进性与前瞻性, 不容否定,值得肯定,但当有人提出“大数据当立,BI当下”之论,就显得过分武断、偏激了。在如今细分制胜的时代,功能并不是越多越好,功能过多反而显得累赘,增加无谓费用,因而故弄玄虚、故作高深地过分炒作概念,反而有失本质、主次。Gartner研究公司的BI分析师RitaSallam表示,“大数据将让BI更有价值和更有利于业务发展。我们总是会需要看看过去的数据,当你拥有大数据时,你更应该这样做。BI并不会消失,它通过大数据被加强了。在一 定时期内,大数据还难于取代传统BI工具。”

  如今各种关于大数据与BI软件谁优谁劣观点的交锋仍不断泛起,但不管如何,应明白的是,客户单位、消费者真正需要的不是概念,需要不是优劣是非的争论,他们需要的是实实在在的应用软件,需要的是解决问题的有效方法,需要的是软件恰到好处的功能。

  而对应用企业而言,它们必须认真权衡,到底企业利用大数据后能给企业带来了多少额外增加的价值?这种增加的价值是否能让企业的投入有一个较好的收获?而 且更为重要的一点是,是否只要使用大数据就一定能够给企业带来以前不可能实现的价值?这些都需要应用企业好好重点考虑了。

  http://blog.sciencenet.cn/blog-549158-753166.html

时间: 2024-07-31 18:36:43

大数据风起云涌背后的冷思考的相关文章

对大数据和人工智能的冷思考

大数据和人工智能是今年最热门的话题,在司法领域更是如火如荼,司法在大数据时代的范式革命已经到来.但利之所在弊亦随之,如果对大数据和人工智能的风险缺乏充分认识,不能在热情之余做一番冷思考,则可能会产生许多难以预料的后果. 首先,是大数据和人工智能的安全性问题.该问题虽属老生常谈,但在互联网犯罪模式从攻击计算机和网络本身转向彻底的虚拟犯罪的时代背景下,可能历久弥新.当前,在互联网犯罪中,已经大量出现了犯罪人接受他人委托,侵入政府部门与企事业单位的计算机系统修改数据以及拦截修改计算机信息数据的案例.因

关于“大数据”的15条干货思考

文章讲的是关于"大数据"的15条干货思考,1.马云创造了"DT"(大数据时代)这个词,说未来社会不是IT时代,而是DT时代,而阿里巴巴战略定位为做DT时代的基础设施.类似于IT时代的微软,移动互联网时代的苹果之类的意思.马云去年在云栖大会上提出未来30年的"五个新",分别是"新零售,新制造,新金融,新技术,新能源",其中"新能源"就是大数据,其讨论的相对比较少,似乎公众只关心的是公民数据安全问题,对于产业方

Apache Hadoop已成为大数据行业发展背后的驱动力

随着互联网技术的发展,当今网络中每天都在产生海量的信息,这其中包括半结构化和非结构化的数据.组织可以通过对海量信息的分析了解到他们客户真正需要的以及为什么需要的原因.如今Apache Hadoop已成为大数据行业发展背后的驱动力. Facebook的工程师相信他们运行着最大的基于Hadoop的数据收集平台.Facebook基础设施工程副总裁Jay Parikh表示Facebook大多数的网站数据存储在单一的集群之中,容量可达100PB,Facebook的集群相比于其他公司的集群可谓是独树一帜.

《深入理解Hadoop(原书第2版)》——1.2大数据技术背后的核心思想

1.2大数据技术背后的核心思想 上文中的例子我们作了诸多假设,要表明的核心问题是虽然我们可以很快地处理数据,但是从持久性的存储设备中读取的速度受到限制,这是整个数据处理流程上的关键瓶颈所在.相对于读写本地节点存储设备上的数据,通过网络来传输数据会更慢. 下面列出了所有大数据处理方法中的一些共同特征: 数据分布在多个节点(网络I/O速度<<本地磁盘I/O速度). 计算程序离数据更近(集群上的节点),而不是相反. 数据的处理尽量在本地完成(网络I/O速度<<本地磁盘I/O速度). 使用

双11狂热背后的冷思考:传统零售的大数据、智能化转型才刚刚开始

本文是星河互联电商事业部对于零售行业现状和未来发展的一些思考,作者高宁和欧阳盈盈分别为星河互联电商事业部投资经理和分析师,关注产业信息化升级.B2B.供应链SaaS和智能商业等领域. 2017年"双11"交易额又创新高,巨额交易背后是各大平台提前数月的摩拳擦掌.这是一次全民的购物狂欢,更是一场暗流涌动的"军备竞赛",从中我们可以一窥整个零售行业的发展现状与未来趋势.  对于阿里来说,今年的双11算是对"新零售"概念的第一次全盘检阅.除了参与购物节

【友盟+】COO叶谦:解读全域大数据战略背后的技术演进

今年年初,Oracle发布了一份大数据变化趋势报告,报告中指出,越来越多的企业将用户分析甚至是企业应用同大数据加以结合.从AI支持型应用到Megabox等数据流客户端,各家企业都将迎来自己的大数据转型及下一代数据驱动型应用.Oracle亚太客户体验策略及转型部门总监Krisi Mansfield也表示:"预见并了解了客户的意向,并相应地采取行动之后,就可实现个人化(Individualization)"目前,国内一批大数据企业都开始致力于此项技术的研究和探索--即围绕用户的使用过程来打

阿里车品觉:大数据时代的若干新思考

大数据究竟是什么?大数据未来将走向何妨?美好的大数据理想与现实之间还有多少距离?目前实践了些什么?遇到哪些困难?这些问题值得我们去思考.为此,阿里巴巴数据委员会联合阿里研究院<阿里商业评论>举办了一场大数据思想沙龙.邀请多位在商业世界数据第一线的实战领军人物,就以上问题展开深入的探讨. 车品觉,<决战大数据>作者.阿里巴巴集团副总裁.数据委员会会长. 不同状态的企业,对于数据的关注点不同 我们要非常注意企业所处的状态,包括企业状态和数据状态.一个企业处在不同的状态之下,对于数据的关

程学旗:关于中国大数据生态系统的基础问题思考

"中关村大数据产业联盟"推出"大数据100分"论坛,晚上9点开始,于"中关村大数据产业联盟"微信群进行时长100分钟的交流.探讨. 白硕:担任今天主讲的是中科院计算所程学旗研究员,大家欢迎! 白硕:现任中国科学院计算技术研究所副总工.研究员.博士生导师.网络科学与技术重点实验室主任. 作为中科院计算所互联网高性能软件与算法理论.网络搜索.网络信息安全方向的团队负责人和学科带头人,带领团队从事国家网络空间安全保障.互联网高性能软件以及网络搜索与挖掘

大数据时代下的安全思考

根据互联网数据中心(IDC)相关数据显示,互联网上的数据每年将增长50%,每两年将翻一番,而目前全球互联网90%以上的数据是近几年才产生的.以大数据.智慧城市.移动互联网和云计算为重要特征的"大智移云"时代已经到来. 大数据时代的互联网安全形势发生变化,信息安全上升到国家战略高度.棱镜门等事件背后凸显出大数据安全布防的重要性和紧迫性,企业需要加快自主技术创新才能摆脱外界控制,彻底实现信息安全和发展自由. 大数据引擎成为企业服务创新发展的核心驱动力,正在影响企业安全市场格局生变.由于利用