补充不是替代:Hadoop的使命与局限

Hadoop不会替代企业现有的数据基础设施,而是会对现有数据基础设施进行有益的补充。与熟悉Hadoop原理同等重要的是,我们应该熟悉它到底能够在企业中发挥哪些作用,以及部署它的最佳方式。

能够在业务中利用大数据是非常具有诱惑力的。目前,同类产品中还没有任何一款产品的魅力超过了Apache Hadoop。这一可扩展的数据存储平台是许多大数据解决方案的核心。通过了解Hadoop能够做哪些事情,不能够做哪些事情,你将更了解如何更好地在数据中心或云上部署它们。下面,我们就将为大家介绍一些Hadoop部署中的最佳实践。

Hadoop无法做的事

对于Hadoop是什么我们就不花时间进行详细介绍了,因为大量的资料和媒体对它们的介绍已经足够详尽。我们需要说的是,清楚Hadoop的两个重要组件非常重要:Hadoop分布式文件系统和MapReduce架构。前者专门用于存储,后者可让你分析存储在Hadoop中的任何数据。值得关注的是,这些数据不一定非得是结构化的数据。它们可以让Hadoop分析和处理来自社交媒体、文档和图表等来源的数据,以及任何无法轻易归入行与列范畴的数据。

这并不是说你不能将Hadoop用于存储和分析结构化数据。实际上,有许多解决方案正是利用了Hadoop每TB存储成本相对低廉的优势,用它们替代传统的关系型数据库来存储结构化的数据。但是如果你的存储需求并不是那么高,那么能在Hadoop和传统关系型数据库之间迁移数据将更加具有优势。

你无法使用Hadoop处理的是交易型数据。交易型数据的特点决定其非常复杂,一个电子商务网站的交易可以分解为许多步骤,每一步都必须要被快速处理。这种应用场景并不适合于Hadoop。此外,Hadoop也不适合对延迟时间要求非常高的结构化数据集。例如,当网站选择在典型的LAMP(Linux+Apache+MySQL+Perl/PHP/Python)堆栈中使用一个MySQL数据库,因为Hadoop无法满足其速度需求。

Hadoop能做的事

由于具有批处理能力,Hadoop应该被部署在索引的建立、模式识别、建立推荐引擎和情感分析等环境中。在这些环境中,数据被大量生成并存储在Hadoop中,可以通过MapReduce功能被查询。但是这并不是说,Hadoop应该替代数据中心中现有的组件。相反,Hadoop应该被整合到企业现有的IT基础设施中,以充分利用流入企业的海量数据。

让我们来看看处理商业交易的典型非Hadoop企业网站目前的做法。Cloudera教育服务总监Sarah Sproehnle表示,在“夜航模式”下,来自客户流行网站的日志要经历ETL(提取、转换和加载)流程,将数据存储在数据仓库之前需要花费三个小时的时间。这时存储程序将被启动,但是仍需再过两个小时,清洗后的数据才能被存入到数据仓库之中。最终数据集的大小只有最初大小的五分之一。这意味着,如果对整个原始数据集做任何调整,都会导致数据的丢失。

然而,当把Hadoop整合到企业的IT架构中后,你在数据管理方面所投入的时间和精力将会更具效率。取代执行ETL操作的是,来自Web服务器的日志数据把整体数据直接发送到Hadoop的HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)中。日志数据需要经过相同的清洗程序,但是目前仅使用MapReduce。一旦被清洗,数据就会被发送至数据仓库中。这一操作速度更快,要归功于ETL环节的取消,以及MapReduce处理的速度。所有数据仍将存储在Hadoop中,并时刻为今后网站运营者的任何额外查询做好准备。

问题的关键是我们需要正确地认识Hadoop。它不应该被视为现有基础设施的替代者,相反应该被视为提升数据管理与存储能力的新工具。通过使用Apache Flume或是Apache Sqoop等工具,你能够将现有的系统与Hadoop连接在一起,无论数据大小都能够被处理。Apache Flume能够将数据从传统关系型数据库提取到Hadoop中,或是将数据从Hadoop中提取到关系型数据库中;Apache Sqoop则能够实时将系统日志提取至Hadoop中。你所需要做的是增加Hadoop的节点,以进行存储与处理。

(责任编辑:蒙遗善)

时间: 2024-08-31 18:40:07

补充不是替代:Hadoop的使命与局限的相关文章

朱共山:绿证是补充而不是替代光伏补贴

受绿色证书机制将取代光伏补贴传言影响,保利协鑫股价近期下调.在9日下午召开的电话会议上,保利协鑫董事局主席朱共山表示,在与有关政府机构讨论后,拟议的绿色证书机制绝不会取代现行的可再生附加费补贴机制,它更是一种补充而不是替代.德银和汇丰等国际大行指保利协鑫股价被市场低估,正是买入机会,目标价1.45-1.5元. 管理层认为,绿证在其他国家有推行比较成功的先例,所以中国政府希望借鉴绿证的方式来解决清洁能源补贴的问题,但绿证不会替代光伏电站的补贴.第一,如果国家需要执行绿证,须强制五大发电厂及其他高耗

Li-Fi无线技术揭秘:Wi-Fi的补充而非替代

此前,消息称苹果iOS 9.1测试版中拥有Li-Fi代码,意味着未来iPhone等设备可能提供Li-Fi网络连接兼容性,那么,Li-Fi究竟是什么? Li-Fi(Light Fidelity)是一种新型无线网络连接技术,由Harold Hass于2011年发明.其中,"L"代表Light,便是光线,所以该技术是基于LED灯而实现无线数据传播.在MWC 2016世界移动通信大会上,Harold Hass创建的PureLi-Fi公司带来了实际产品的演示,让人们可以近距离体验Li-Fi的先进

大数据分析平台Hadoop与Spark之争

ZD至顶网软件频道消息 原创文章(文/邓晓蕾): 有人把大数据称为信息资产.有人称为金矿.甚至社会财富.而大数据,即,无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.Gartne认为"大数据"是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产.大数据并不在"大",而在于"有用".价值含量.挖掘成本比数量更为重要.对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键.大数据

Hadoop生态圈一览

根据Hadoop官网的相关介绍和实际使用中的软件集,将Hadoop生态圈的主要软件工具简单介绍下,拓展对整个Hadoop生态圈的了解. 这是Hadoop生态从Google的三篇论文开始的发展历程,现已经发展成为一个生态体系,并还在蓬勃发展中.... 这是官网上的Hadoop生态图,包含了大部分常用到的Hadoop相关工具软件 这是以体系从下到上的布局展示的Hadoop生态系统图,言明了各工具软件在体系中所处的位置 这张图是Hadoop在系统中核心组件与系统的依赖关系 下面就是简单介绍Hadoop

大数据框架Hadoop主要模块介绍

本文涉及到的所有模块,都是属于Apache组织,不包括其他第三方的模块. 核心模块: Hadoop Common: 包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来.主要包括系统配置工具Configuration.远程过程调用RPC.序列化机制和Hadoop抽象文件系统FileSystem等.它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API. Hadoop Distributed File System (HDFS): 分布式

不同Hadoop上的SQL数据库引擎如何适配BI工作

Hadoop上的SQL引擎Impala是一种新型查询系统基准,发现Spark和Hive在BI的工作负载中有自己的优势与弱势. 根据最新的基准,三个主要的SQL-on-Hadoop引擎,Apache Impala 2.3, Apache Spark 1.6 和Apache Hive 1.2,都有各自独特的优势和劣势,这令他们能很好的适应一些BI用例,而不是其他智能. "一个引擎是无法满足所有需求的",Dave Mariani,大规模AtScale的CEO和创始人,AtScale是一个专门

Hadoop即将过时了吗?

Hadoop这个单词如今铺天盖地,几乎成了大数据的代名词.仅仅数年时间,Hadoop从边缘技术迅速成长为一个事实标准.如今想玩转大数据,搞企业分析或者商业智能,没有Hadoop还真不行.但Hadoop狂热的背后却酝酿着一场技术变革,Hadoop的核心技术在Google那里已经过时,因为Hadoop并不擅长处理"快数据". 今天,Hadoop似乎已经毫无争议地成了企业大数据技术标准,看上去Hadoop将根植企业,其地位在未来十年似乎都不会动摇.但是GigaOM的专栏作家Mike Mill

多云未来,Hadoop何去何从?

Hadoop是目前大数据分析领域中应用最广泛的一种分布式架构,而经过相当长时间的发展,Hadoop在功能上也越来越成熟.尤其在过去三年里,它得到前所未有的发展,并被很多公司大规模采用.然而时代在变化,Hadoop在多云的未来该何去何从? 根据市场调研公司Forrester估计,2017年用户将在Hadoop软件和相关服务上花费8亿美元.这并不奇怪,因为在过去这段时间里,Hadoop供应商们充分利用Cloudera. Hortonworks.和MapR等产品使Hadoop家喻户晓.但是,时代在变化

使用Hadoop还是Spark到底怎么决断?

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生.或许我们可以这样说,Hadoop是大数据的启蒙,借助Hadoop让企业步入了大数据时代.而最近几年,Spark的风头似乎超越了Hadoop.而且网上有一种声音就是Spark将会取代Hadoop成为大数据的统治者,事实上是这样么?且听笔者娓娓道来. 其实,Hadoop与Spark不存在冲突,因为Spark是运行于Hadoop顶层的内存处理方案,也就是说目前部署Spark的企业,其实都在现有的Hadoop集群中运行Spa