Hadoop如何迎击大数据分析的挑战

文章讲的是Hadoop如何迎击大数据分析的挑战,大数据分析是现在十分火热的话题,从农业到工业、从金融到体育、从传统企业到初创公司,各行各业都在积极应用大数据分析,似乎你的企业不和大数据沾点边就会显得没有逼格一样。

  随着大数据分析的持续走红,大数据分析工具也呈现出了遍地开花的态势,我们今天要说的Hadoop就是其中之一。

  Hadoop是Apache开发的一个开源项目,短短几年的时间,我们就见证了Hadoop从无到有、从简陋到稳定的转变。目前Hadoop因其具有高度可扩展性,灵活性和成本效益,已经成为大数据分析的理想工具。

  Hadoop对大数据存储和预测分析有什么好处?

  Apache Hadoop软件库是一个框架,允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理,它的可扩展性非常好,可以从单台服务器扩展到数以千计的服务器。Hadoop在大数据存储和分析方面表现十分出色:

  低故障率

  每台机器都会进行数据复制,这一特点也使得Hadoop成为大文件备份的一个好选择。当一个节点复制了一个数据块,那么同一数据集群中的其他节点也会复制。数据备份跨越多个节点,所以数据被永久改变或破坏的可能性非常小,系统的容错性也随之提高了。

  成本效益

  Hadoop是最具成本效益的大数据分析和存储解决方案之一。 根据Cloudera的研究,Hadoop存储数据的成本仅仅是其它大数据存储解决方案很小的一部分。

  Cloudera公司产品副总裁Zedlewski Zedlewski认为,目前网络存储的市场行情大约是1TB数据5000美元,在具体情况下可能会有价格的上下浮动。在数据库、数据集市、数据仓库以及相关的硬件领域,通常1TB数据的价格可能要达到10000美元到15000美元。

  灵活性

  Hadoop是一个非常灵活的解决方案,用户可以使用SQL轻松添加提取结构化和非结构化数据集。这一特点对医疗行业来说特别有价值,因为医疗行业需要不断地更新患者记录。根据Dezyre报告显示:,美国医疗保健行业内最大的软件及服务提供商Sage已经在利用Hadoop进行基因组学、癌症治疗以及患者生命监测等相关工作。

  可扩展性

  Hadoop支持高度可扩展,它可以存储TB级数据,并同时运行数千个数据节点。

  利用SQL迎击Hadoop和大数据分析的挑战

  Hadoop与SQL兼容,所以适用范围广泛,用户可以使用多种SQL方法来提取和使用Hadoop存储的大数据,如果已经熟练掌握了SQL,那么Hadoop就可能成为最佳的大数据分析解决方案。

  但是如果想要从Hadoop中提取数据,那么就需要一个复杂的SQL引擎,目前市面上有很多开源解决方案,Apache Hive就是其中之一。

  Apache Hive有三个主要功能:运行数据查询、汇总数据、大数据分析,它可以自动将SQL查询转换为Hadoop MapReduce作业,但是它有一个很大的缺点就是它随着数据集群的大小会有时间延迟的问题。

  “Hive本身就不是为OLTP工作负载设计的,所以不提供实时查询或行级更新,它更适合于大量仅附加数据(如Web日志)的批处理作业。”Hive在大数据集项目上的时间延迟十分明显,因此它不适合需要实时分析数据的可扩展项目。

  除了Hadoop Hive之外,还有一些其它的SQL引擎:

  Rick van der Lans报告表示:上图这些解决方案基本上都能够弥补Apache Hive的不足,它们的特性之一就是多语言持久性,这一特性意味着它们既可以跨数据库访问数据,也可以访问存储在Hadoop上的数据。另外,目前也有很多用于实时大数据分析的应用程序。

  InfoWorld报告显示目前Spark、Storm和DataTorrent是Hadoop实时大数据分析领域的三大领先解决方案,目前Hadoop中的流数据实时处理通常会选择Storm或Spark,而DataTorrent是开源自一个之前的商业产品,现在已经加入到了Hadoop战局中。

作者:田晓旭编译

来源:IT168

原文链接:Hadoop如何迎击大数据分析的挑战

时间: 2024-11-17 07:01:01

Hadoop如何迎击大数据分析的挑战的相关文章

基于Hadoop平台的大数据分析关键技术标准化探讨

基于Hadoop平台的大数据分析关键技术标准化探讨 高洪  杨庆平  黄震江 分析基于Hadoop平台的大数据分析关键技术面临的标准化问题,从数据采集.并行计算框架.分析结果输出.并行数据分析算法四个方面进行标准化的分析和调研,提出包含架构模型等四个方面的标准化方向以及相关API等方面的标准化建议. 关键词--大数据分析: 计算框架: 并行分析算法: Hadoop 基于Hadoop平台的大数据分析关键技术标准化探讨

SAS将提供基于Hadoop的开创性大数据分析技术

全球领先的商业分析软件与服务供应商SAS公司正在开发一种基于SAS内存分析技术,并适用于开源框架Hadoop的交互式分析编程环境.新软件通过更快地挖掘大数据获取更精确商业洞察,帮助企业提升盈利.降低风险.增进对客户的了解以及创造更多商业成功的机会. SAS?In-MemoryStatisticsforHadoop能够让多用户同时并交互地管理.挖掘和分析数据,建立和比对模型,以及对Hadoop框架内的海量数据进行评分.Hadoop开源框架被广泛认为是大数据未来发展方向.SAS软件将在2014年上半

Hadoop:直面大数据的挑战

http://www.aliyun.com/zixun/aggregation/14417.html">Apache Hadoop通过简化数据密集.高度并行的分布式应用的实现来应对大数据带来的挑战.全球诸多企业.大学和其他组织都在使用Hadoop,它允许把分析任务划分为工作片段,并分派到上千台计算机上,提供快速的分析时间和海量数据的分布式存储.Hadoop为存储海量数据提供了一种经济的方式.它提供了一种可扩展且可靠的机制,用一个商用硬件集群来处理大量数据.而且它提供新颖的和更先进的分析技术

《Spark与Hadoop大数据分析》——1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色

1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色 传统的数据分析使用关系型数据库管理系统(Relational Database Management System,RDBMS)的数据库来创建数据仓库和数据集市,以便使用商业智能工具进行分析.RDBMS 数据库采用的是写时模式(Schema-on-Write)的方法,而这种方法有许多缺点. 传统数据仓库的设计思想是用于提取.转换和加载(Extract, Transform, and Load,ETL)数据,据此回答与用户需求

《Spark与Hadoop大数据分析》一一1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色

1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色 传统的数据分析使用关系型数据库管理系统(Relational Database Management System,RDBMS)的数据库来创建数据仓库和数据集市,以便使用商业智能工具进行分析.RDBMS 数据库采用的是写时模式(Schema-on-Write)的方法,而这种方法有许多缺点.传统数据仓库的设计思想是用于提取.转换和加载(Extract, Transform, and Load,ETL)数据,据此回答与用户需求直

《R与Hadoop大数据分析实战》一2.1 MapReduce基础概念

2.1 MapReduce基础概念 如果没有使用过集群或信息传递接口(Message Passing Interface,MPI),那么理解MapReduce基础概念将不会是一件容易的事.更多的实际应用是数据不存放在一个硬盘中而是存放于分布式文件系统中(Distributed File System,DFS),或存放于由Hadoop技术实现的分布式软件中.MapReduce同时也是一个编程模型,它以一种分布式方法进行工作.其中包括信息传递接口(MPI)和同步并行计算模型(Bulk Synchro

详解:大数据分析的学习之路

以大数据分析师为目标,从数据分析基础.JAVA语言入门和linux操作系统入门知识学起,系统介绍Hadoop.HDFS.MapReduce和Hbase等理论知识和hadoop的生态环境 一.大数据分析的五个基本方面 1,可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了. 2,数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种

加速洞察 IBM Power全面助力大数据分析

文章讲的是加速洞察 IBM Power全面助力大数据分析,云计算方兴未艾,大数据又快速兴起.数据中有黄金屋,数据中有颜如玉.但是如何从浩瀚的数据中找出"黄金屋"却并非易事."工欲善其事,必先利其器",一套有效的IT基础架构能够大大简化大数据落地的过程,在这方面,IBM POWER有独到之处. 近日,由中国计算机学会(CCF)主办.CCF大数据专家委员会承办的"2015中国大数据技术大会(BDTC)"在北京召开.本届大会,以"推进大数据科

大数据分析的光荣与陷阱——从谷歌流感趋势谈起

本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大.算法演化.看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴.本文认为,为健康发展大数据产业,我国需要防范大数据自大风险.推动大数据产业和小数据产业齐头并进,并强化提高大数据透明度.审慎评估大数据质量等方面的努力. ◆ ◆ ◆ 一.谷歌流感趋势:未卜先知? "谷歌流感趋势"(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证.2008年11月谷歌