大数据“流言”:解析Hadoop和大数据的七误解

  对于Hadoop技术而言,可以说是开源领域的传奇,然而如今业界还伴随着一些流言,这些流言可能会导致IT高管们带着“有色”的观点去制定策略。

  如今,数据量在以惊人的速度增长,从IDC分析师报告中2013年数据存储上的增长速度将达到53.4%,AT&T更是声称无线数据的流量在过去的5年内增长200倍,从互联网内容、电子邮件、应用通知、社交消息以及每天接收的消息都在显著的增长,这也是众多大企业都聚焦大数据的原因所在。

  毫无疑问,Hadoop成为解决大数据需求的主要投资领域之一,而类似Facebook等互联网巨头在都公开的吹捧Hadoop上取得的成功,同样初入大数据领域的公司也必先着眼于Hadoop。但对于Hadoop技术而言,是一个多维的解决方案,可以通过不同的方式进行部署和使用。下面就了解一些关于Hadoop和大数据的七大错误理念:

  1.大数据仅仅是容量

  对大数据来说,除了指体积之外,还经常提到Variety(多样)、Variability(可变)、Velocity(速度)和Value(价值)。关键点在于大数据并不是体积上的增长,更多是未来的实时分析、结构化和非结构化数据的发展,并被企业CIO用于更好的决策。

  综上所述,并不是只有分析大数据才会获得价值。举个例子,存储和分析1PB的超时限数据的价值可能比不上实时分析1GB的数据,而从“新鲜”的数据上获得价值比解剖过时的数据更具价值。

  2.传统SQL不能在Hadoop上使用

  众多厂商在Hadoop上投入精力,布局市场战略时,十分清楚HDFS和MapReduce受限于处理类似SQL语言的能力,这也是Hive、 Pig和Sqoop最终得以推广的原因。更多企业通过Hadoop和SQL兼容来管理大量的数据,Pivotal HD是结合SQL并行处理资料库与Hadoop 2.0,针对企业资料分析需求而优化的Hadoop强化版本。

  3.Hadoop是唯一的新IT数据平台

  谈到数据平台,大型机在IT投资组合里有是一个长期投资,与ERP、CRM和SCM这些系统一样演变至今。而面对大数据时代,大型机不想被架构遗弃,必须展示在现有IT投资环境中的价值,而许多客户遇到速度、规模和成本的问题,通过vFabric SQLFire这样的内存大数据网络去解决高速数据存取,促进大型机批处理或实时分析报告这些问题。

  4.虚拟化会导致性能下降

  Hadoop最初的设计只是运行实体服务器上,然而随着云计算发展,许多企业都希望能作为云数据中心提供服务。之所以虚拟化Hadoop,企业首先要考虑管理基础设施的扩展性,认识到扩展计算资源,比如虚拟Hadoop节点在数据和计算分开时会对性能有所帮助,否则如果你关闭某个Hadoop节点将丢失上面的所有数据或者添加一个没有数据的空节点。

  5.Hadoop只可以在数据中心运行

  对于在SaaS云服务解决方案,许多云服务允许云端运行Hadoop、SQL,这无疑可以帮助企业省下数据中心建造投资的时间和金钱。特别是对于公有云情况下,Java开发者可以从Spring Data for Hadoop以及一些其它的GitHub用例中获益。

  大数据复杂性

  6.Hadoop对虚拟化无经济价值

  Hadoop被很多人认为,尽管在商用服务器上运行,添加一个虚拟层在带来额外支出的同时并不会有额外的价值收益,但其实这个说法并没有考虑到数据和数据分析事实上都是动态的。虚拟化基础设施同样可以减少物理硬件数量,让CAPEX(资本支出)直接等于商用硬件成本,而通过自动以及高效利用共享基础设施同样可以减少OPEX(运营成本)。

  7.Hadoop不能运行在SAN或NAS上

  尽管Hadoop在本地磁盘上运行,对于中小型集群一样可以在一个共享的SAN环境下体现良好的性能表现,而高带宽比如10GB以太网、PoE以及iSCSI对性能同样有很好的支持。

  由此,大数据成为行业追逐的热点,以上七大有关大数据“误解”问题的客观看待。如同不同项目需求不同,Hadoop是一个工具来帮助企业更好的应对大数据问题。无论是面对数据网格的GemFire​或SQLFire,还是面向消息的RabbitMQ中间件,一个完整的SaaS解决方案如今比在 Hadoop环境更容易实现。

时间: 2024-10-29 13:27:09

大数据“流言”:解析Hadoop和大数据的七误解的相关文章

数据为王 Hadoop与大数据处理

随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注.<著云台>的分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱.大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十.数百或甚至数千的电脑分配工作.简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术.明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜

在大数据里:Hadoop可能是你的救命稻草

文章讲的是在大数据里:Hadoop可能是你的救命稻草,用于数据分析的开源Hadoop架构的巨大增长是由其结构化和非结构化数据量的增长所驱动的,并且很多权威组织也预测,未来Hadoop架构还将继续增长,并需要复杂的可访问工具来从数据中提取业务和市场信息. 对于Hadoop来说,前景很乐观--开源框架旨在促进巨大数据集的分布式处理.Hadoop对企业越来越具有吸引力,因为它既可以获取大数据的好处,同时又避免了基础架构费用. 联合市场研究部门最近的一份报告表明,Hadoop市场将实现从2013年到20

《Hadoop海量数据处理:技术详解与项目实战》一1.2 Hadoop和大数据

1.2 Hadoop和大数据 Hadoop海量数据处理:技术详解与项目实战 在人们对云计算这个词汇耳熟能详之后,大数据这个词汇又在最短时间内进入大众视野.云计算对于普通人来说就像云一样,一直没有机会能够真正感受到,而大数据则更加实际,是确确实实能够改变人们生活的事物.Hadoop从某个方面来说,与大数据结合得更加紧密,它就是为大数据而生的. 1.2.1 大数据的定义 "大数据"(big data),一个看似通俗直白.简单朴实的名词,却无疑成为了时下IT界最炙手可热的名词,在全球引领了新

2012 Hadoop与大数据技术大会盛大开幕

摘要:11月30日-12月1日,中国IT界技术盛会--Hadoop与大数据技术大会(HBTC 2012)在北京新云南皇冠假日酒店隆重开幕.大会以"大数据共享与开放技术"为主题,设定"Hadoop生态系统"."大数据行业应用"."大数据共享平台与应用"."NoSQL与NewSQL"以及"大数据的技术挑战与发展趋势"五个分论坛. 2012年11月30日-12月1日,中国IT界技术盛会--Ha

最全的大数据技术大合集:Hadoop家族、Cloudera系列、spark

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言. 我们可以带着下面问题来阅读本文章: 1.hadoop都包含什么技术? 2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性? 3.Spark与hadoop的关联是什么? 4.Storm与hadoop的关联是什么

hadoop处理大数据视频的问题

问题描述 hadoop处理大数据视频的问题 我有一段治安监控视频1个G大小,我现在想通过算法计算出视频里全部的有移动物体的目标片段,但是单台机器任务计算非常慢,我是否可以通过Hadoop实现快速计算,具体的流程是什么样de ?谢谢 解决方案 把视频文件通过hadoop fs put放到集群上,然后通过集群来进行元算 解决方案二: 首先放到hadoop集群里,然后编写mapreduce程序 解决方案三: 大数据处理之hadoop(一)

Hadoop和大数据:60款顶级开源工具

虽然此文尽力做到全面,但难免遗漏,欢迎大家补充,点击文末右下角"写评论",分享你的观点. 说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司"会采用Hadoop.Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长:到2020年,市场产值会超过10亿美元.IBM更是非

Hadoop+Spark 大数据开发项目最佳实践

随着IT技术的飞速发展,各行各业都已在广泛尝试使用大数据技术提供更稳健和优质的服务.目前,医疗IT系统收集了大量极具价值的数据,但这些历史医疗数据并没有发挥出其应有的价值.为此 ,本文拟利用医院现有的历史数据,挖掘出有价值的基于统计学的医学规则.知识,并 基于这些信息构建专业的临床知识库,提供诊断.处方.用药推荐功能,基于强大的关联推荐能力,极大地提高医疗服务质量,减轻医疗人员的工作强度. 二.Hadoop&Spark 目前大数据处理领域的框架有很多. 从计算的角度上看,主要有MapReduce

《Hadoop与大数据挖掘》——第2章 大数据存储与运算利器—Hadoop 2.1 Hadoop概述

第2章 大数据存储与运算利器-Hadoop 本章主要介绍了Hadoop框架的概念.架构.组件.生态系统以及Hadoop相关编程,特别是针对Hadoop组件HDFS.MapReduce.YARN,Hadoop MapReduce编程做了较详细的介绍.在介绍各个知识点的同时,结合动手实践章节,帮助读者理解对应的内容. 2.1 Hadoop概述 2.1.1 Hadoop简介 随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机