戳破大数据泡沫

我们正处于一场关于大数据和分布式计算的炒作中,该是让大数据泡沫破裂的时候了。

是的,穿过一个炒作周期来使技术跨越鸿沟,从早期的采用者到更广泛的大众群体。而且,至少它暗示了一个超越学术对话和试点项目的技术进步。但是更广泛的观众采用此项技术可能只是随波逐流,一直就缺少一些重要的警示观点。

跟随潮流

在一个炒作周期内,通常有一个跟随潮流的供应商群,他们仓促实施一个时髦的技术,试图要保持与其相关而且不会在混乱中迷失方向。但是这些公司的产品可能会使市场混淆,因为最终这些技术会被不恰当地使用。

使用这些产品的项目将面临失败的风险 ,即使客户已经付出了大量的资源和精力,也有可能产出几乎没有投资回报率,然后客户可能会开始质疑被热炒的技术。现在Hadoop堆栈正在面临这种局面。

打破大数据泡沫以鉴别有关其产品和模式的某些细微的差别开始。以下是一些重要因素,分为三个重点领域,这些应该在你考虑一个hadoop分布式基础架构的相关技术之前弄明白。

Hadoop不是RDBBMS的杀手

Hadoop分布式系统在商品硬件和存储上运行,使它比传统的关系数据库管理系统(RDBMS)便宜很多,但它并不是一个数据库替代品。Hadoop分布式架构的建立是为了利用对较大数据块的顺序数据访问(一次写入多次读取)而不是单独的记录中。正因为如此,Hadoop分布式系统针对分析工作负载进行了优化,而不是关系型数据库管理系统的交易处理工作。

坦白的说,低延迟的读和写不在Hadoop的分布式文件系统(HDFS)中并不奏效。仅仅是协调的写入和读取单个字节的数据,就要求多个终端控制协议/网端协议连接到Hadoop的分布式系统,这给交易操作带来了非常高的延迟。

然而,在一个优化好的Hadoop集群中,读取和写入大块数据的吞吐量是非常高的。

Hive文件和非Hive文件

Hive文件允许开发人员查询Hadoop分布式系统内的数据并使用一个类似结构化查询语言(SQL)的语言。越来越多的人知道结构化查询语言可以编写的Hadoop分布式系统并行编程技术的本地代码,这使得使用Hive文件能有一个有吸引力的和更便宜的办法来招聘新的人才,或者让开发人员学习Java程序设计语言和编程技术代码编程模式。

然而,在作出关于Hive文件作为你的大数据解决方案的任何决定之前,有一些非常重要的权衡需要注意:

?HiveQL(Hive文件结构化查询语言的方言)只允许您查询结构化数据。

?Hive文件本身并没有一个Extract/Transform/Load(ETL)工具。所以尽管你可以节省钱使用Hadoop分布式系统和Hive文件作为您的数据库,内部开发人员也可以运行结构化查询语言的技能组合,但是维护定制加载脚本和随需求变化准备数据支付费用。

?Hive底层使用HDFS和Hadoop MapReduce计算方法。看来这意味着,其原因就像已经讨论过的那样,从传统的关系数据库管理系统到习惯于正常的结构化查询语言响应时间的最终用户,可能要对Hive文件使用的有点笨拙的批处理方法来“查询”而感到失望了。

这是实时的Hadoop分布式系统吗? 并非真的如此。

让我们来探索一些使Hadoop分布式系统不适用于实时应用的技术因素。Hadoop分布式系统的MapReduce计算方法沿用了一个Map预处理步骤和一个Reduce数据聚合/提炼的步骤。虽然有可能对实时流数据应用这种Map操作,但是Reduce就不能了。

这是因为Reduce步骤要求所有输入的数据首先要为每一个独特的数据键进行映射和整理。然而对这个涉及到缓冲区的过程有一个攻击,甚至黑客都无法进行实时操作,因此缓冲区只能持有少量的数据。

某些NoSQL产品也使用MapReduce来分析工作负载。因此当这些数据存储库可以执行接近实时的数据查询时,它们也不是用于实时分析的工具。

尽管还有其它的一些大数据的谣言需要粉碎,Hadoop分布式系统也无法作为关系数据库管理系统的更换。Hive文件的各种缺点和编程工具对实时流数据的应用的不适应性是目前在我们的观察中存在的最大的障碍。

最后,要实现关于对大数据的承诺,需要透过表象去了解合适的应用。信息技术(IT)组织必须冲破大数据泡沫,并将自己对Hadoop分布式系统的努力集中到提供真正的、不同的价值的领域。

(责任编辑:蒙遗善)

时间: 2024-07-30 02:27:43

戳破大数据泡沫的相关文章

大数据会撒谎?如何戳破大数据的谎言

文章讲的是大数据会撒谎,如何戳破大数据的谎言,数据科学家使用统计分析工具深度挖掘数据潜在的内容时经常会遭遇到大数据挖的坑,实际上这些坑并不是只有大数据才有,大自然本身就存在很多虚假的相关性,大数据只是更加剧了这种虚假的相关性. 随着数据来源的增多和预测类型的多样化,数据建模关系的数量开始接近无穷大.正如David G. Young指出的那样,在预测分析的时候,我们要看到相互作用,变化的曲率.意义,有时甚至要看到变化的标志. 在做数据建模的相关性分析时,最关键的是找对数据范围,尤其是设置合适的变量

大数据泡沫时代:是时候对大数据回归理性了

大数据时代来临,社会对数据人才的理解和评价存在泡沫,是时候需要回归到理性.从智联网的招聘信息看到,很多公司招聘高级数据分析,都特别提出类似的要求:熟练使用SAS.SPSS.R等工具.这些软件都是统计软件,里面的算法都是上个世纪不懂公司业务的人弄出来的.既然是统计领域的知识,为什么特别强调这部分知识呢?其他知识重要性都较轻吗?公司不需要? 很多公司招高级数据分析如此,阿里巴巴数据分析专家卢辉写的书也有类似的问题.很多人都有光环效应(他们认为由于阿里的数据厉害,所以阿里的数据分析专家写的都是对的,其

Ron Kasabian驳大数据泡沫 吹尽狂沙始到金

Gartner 分析师 Svetlana Sicular 在其博客中称,大数据已度过 Gartner 发展规律周期中的"期望顶峰",正逐步下滑到"幻觉破灭期".(如果你不了解 Gartner 发展规律周期,请查看 Svetlana 博客上的解释.) 以我的大数据经验来看,幻觉破灭之说毫无道理可言.大数据分析可创造出大量的价值.正如大多数有价值的工作一样,大数据值得我们投入时间和精力去挖掘其中的价值.在过去三年中,作为英特尔首席信息官团队中的一员,我花费了大量时间开发

博客网“瘦身”戳破Web2.0泡沫 50亿元风投入冬

在金融海啸的袭击之下,围绕在"Web2.0"概念上的光环正在逐渐消退. "当初提起Web2.0的时候,大家都觉得是未来的趋势和方向,一拥而上的机构使得这个行业的泡沫被吹大,现在是破灭的时候:未来许多视频网站也极可能步其后尘."据记者粗略统计,风投在Web2.0概念的投资已有近50亿人民币. 一位风投界的人士告诉记者,"Web2.0,可能已经成为过去的故事了.在国内,所有针对Web2.0的投资基本上都已经停止了." ⊙本报记者 张韬 方兴东最先感觉

红岭创投戳破“互联网”传说:做债务人的VC

源自P2P模式,但不久它就否定P2P:它是一宿a href="http://news.pedaily.cn/industry/互联罿" target=_blank>互联罿/a>金融公司,但现在更看重线下模式:许多人都以为它是一家债权融资平台,但其实它一开始就想引入VC的概念〿/p> 红岭创投董事长周世平是个标准"暖男".他会在采访开始前抓紧时间去朋友圈给太太点个赞:会不时登陆红岭的社区回回帖子,周世平是社区里出了名的"金牌客服"

大数据应用接行业地气 金融一体机破题

本文讲的是大数据应用接行业地气 金融一体机破,大数据到底有多热?从春运大数据.春晚大数据到"两会"上对大数据国家战略的热烈讨论,就这样,大数据从一个技术市场的热词,恍然间"似如一夜春风来,飞入寻常百姓家". 技术市场中,关于大数据究竟是"新瓶装旧酒"还是"颠覆式创新引擎"的讨论从未停歇.实际上,当蕴含在数据生命周期中的信息价值得以充分释放时,没有人会关心其背后的技术究竟是"大数据"抑或是其他.现实生活中人们

《数据分析变革:大数据时代精准决策之道》一2.1 穿越炒作的迷雾

2.1 穿越炒作的迷雾 毫无疑问,围绕大数据已经集聚了大量的宣传和概念炒作.我们必须透过层层炒作迷雾,关注什么才是真正重要的.本节将要介绍的是一些有助于此的概念.本节并没有对大数据的重要性或价值有任何贬低的意思,而是要让大数据切切实实地回归现实本原.可以说,制定切实可行的期望应该是成功迈向大数据的第一步. 2.1.1 大数据的定义是什么?管它呢! 见客户的时候,我有一个经常会被问到的问题:"比尔,在你心里,大数据是如何定义的?"为什么大家总是乐此不疲地纠结于大数据的定义呢?[1]其实,

从Facebook看大数据存储怎么选

最近有位朋友向我咨询技术问题,他们的客户提出一个大数据系统的服务器硬件需求,其中元数据有xxTB左右.并给出了以下初步建议: 节点类型1(元数据节点) Xeon E5 14核CPU x2 256GB DDR4内存 600GB SAS 15K硬盘x5 RAID卡 节点类型2(数据节点) Xeon E5 14核CPU x2 128GB DDR4内存 4TB 7.2K近线硬盘x4 RAID卡 软件并非我擅长的方面,不过大数据概念炒了好几年,从各方面还是多少了解到一些Hadoop/HDFS硬件架构方面的

大数据:大量商业价值被浪费

Ayasdi的联合创始人兼CEO Gurjeet Singht认为:从查询开始分析数据本身就是一个死胡同,并指出了当下http://www.aliyun.com/zixun/aggregation/14294.html">的大数据只完成了万里长征的第一步. 许多人都会被震惊,如果他们知道研究人员只是从收集到数据中1%的数据进行分析和提取见解.而就是这1%被分析的数据支配了革新和见解,现在我们称之为"大数据".而在每天收集的1 quintillion(百万3次方)字节的数