必读!大数据:Hadoop,业务分析及更多(2)

  大数据处理和分析的新方法

  存在多种方法处理和分析大数据,但多数都有一些共同的特点。即他们利用硬件的优势,使用扩展的、并行的处理技术,采用非关系型数据存储处理非结构化和半结构化数据,并对大数据运用高级分析和数据可视化技术,向终端用户传达见解。

  Wikibon已经确定了三种将会改变业务分析和数据管理市场的大数据方法。

  Hadoop

  Hadoop是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由雅虎的Doug Cutting创建,Hadoop的灵感来自于 MapReduce ,MapReduce是谷歌在2000年代初期开发的用于网页索引的用户定义函数。它被设计用来处理分布在多个并行节点的PB级和EB级数据。

  Hadoop集群运行在廉价的商用硬件上,这样硬件扩展就不存在资金压力。Hadoop现在是Apache软件联盟(The Apache Software Foundation)的一个项目,数百名贡献者不断改进其核心技术。基本概念:与将海量数据限定在一台机器运行的方式不同,Hadoop将大数据分成多个部分,这样每个部分都可以被同时处理和分析。

  Hadoop如何工作

  客户从日志文件、社交媒体供稿和内部数据存储等来源获得非结构化和半结构化数据。它将数据打碎成“部分”,这些“部分”被载入到商用硬件的多个节点组成的文件系统。Hadoop的默认文件存储系统是Hadoop分布式文件系统。文件系统(如HDFS)善于存储大量非结构化和半结构化数据,因为它们不需要将数据组织成关系型的行和列。

  各“部分”被复制多次,并加载到文件系统。这样,如果一个节点失效,另一个节点包含失效节点数据的副本。名称节点充当调解人,负责沟通信息:如哪些节点是可用的,某些数据存储在集群的什么地方,以及哪些节点失效。

  一旦数据被加载到集群中,它就准备好通过MapReduce 框架进行分析。客户提交一个“匹配”的任务( 通常是用Java编写的查询语句)给到一个被称为作业跟踪器的节点。该作业跟踪器引用名称节点,以确定完成工作需要访问哪些数据,以及所需的数据在集群的存储位置。一旦确定,作业跟踪器向相关节点提交查询。每个节点同时、并行处理,而非将所有数据集中到一个位置处理。这是Hadoop的一个本质特征。

  当每个节点处理完指定的作业,它会存储结果。客户通过任务追踪器启动“Reduce”任务。汇总map阶段存储在各个节点上的结果数据,获得原始查询的“答案”,然后将“答案”加载到集群的另一个节点中。客户就可以访问这些可以载入多种分析环境进行分析的结果了。MapReduce 的工作就完成了。

  一旦MapReduce 阶段完成,数据科学家和其他人就可以使用高级数据分析技巧对处理后的数据进一步分析。也可以对这些数据建模,将数据从Hadoop集群转移到现有的关系型数据库、数据仓库等传统IT系统进行进一步的分析。

  Hadoop的技术组件

  Hadoop “栈”由多个组件组成。包括:

  · Hadoop分布式文件系统(HDFS):所有Hadoop集群的默认存储层;

  · 名称节点:在Hadoop集群中,提供数据存储位置以及节点失效信息的节点。

  · 二级节点:名称节点的备份,它会定期复制和存储名称节点的数据,以防名称节点失效。

  · 作业跟踪器:Hadoop集群中发起和协调MapReduce作业或数据处理任务的节点。

  · 从节点:Hadoop集群的普通节点,从节点存储数据并且从作业跟踪器那里获取数据处理指令。

  除了上述以外,Hadoop生态系统还包括许多免费子项目。NoSQL数据存储系统(如Cassandra和HBase)也被用于存储Hadoop的MapReduce作业结果。除了​​Java,很多 MapReduce 作业及其他Hadoop的功能都是用Pig语言写的,Pig是专门针对Hadoop设计的开源语言。Hive最初是由Facebook开发的开源数据仓库,可以在Hadoop中建立分析模型。

  请参阅文章:Hadoop组件和子项目指导手册:HBase,Sqoop,Flume等:Apache Hadoop定义(http://wikibon.org/wiki/v/HBase,_Sqoop,_Flume_and_More:_Apache_Hadoop_Defined)

  Hadoop:优点和缺点

  Hadoop的主要好处是,它可以让企业以节省成本并高效的方式处理和分析大量的非结构化和半结构化数据,而这类数据迄今还没有其他处理方式。因为Hadoop集群可以扩展到PB级甚至EB级数据,企业不再必须依赖于样本数据集,而可以处理和分析所有相关数据。数据科学家可以采用迭代的方法进行分析,不断改进和测试查询语句,从而发现以前未知的见解。使用Hadoop的成本也很廉价。开发者可以免费下载Apache的Hadoop 分布式平台,并且在不到一天的时间内开始体验Hadoop。

  Hadoop及其无数组件的不足之处是,他们还不成熟,仍处于发展阶段。就像所有新的、原始的技术一样,实施和管理Hadoop集群,对大量非结构化数据进行高级分析,都需要大量的专业知识、技能和培训。不幸的是,目前Hadoop开发者和数据科学家的缺乏,使得众多企业维持复杂的Hadoop集群并利用其优势变得很不现实。此外,由于Hadoop的众多组件都是通过技术社区得到改善,并且新的组件不断被创建,因此作为不成熟的开源技术,也存在失败的风险。最后,Hadoop是一个面向批处理的框架,这意味着它不支持实时的数据处理和分析。

  好消息是,一些聪明的IT人士不断对Apache Hadoop项目做出贡献,新一代的Hadoop开发者和数据科学家们正在走向成熟。因此,该技术的发展日新月异,逐渐变得更加强大而且更易于实施和管理。供应商(包括Hadoop的初创企业Cloudera和Hortonworks)以及成熟的IT中坚企业(如IBM和微软)正在努力开发企业可用的商业Hadoop分布式平台、工具和服务,让部署和管理这项技术成为传统企业可用的实际现实。其他初创企业正在努力完善NoSQL(不仅仅是SQL)数据系统,结合Hadoop提供近实时的分析解决方案。

  NoSQL

  一种称为NoSQL的新形式的数据库(Not Only SQL)已经出现,像Hadoop一样,可以处理大量的多结构化数据。但是,如果说Hadoop擅长支持大规模、批量式的历史分析,在大多数情况下(虽然也有一些例外),NoSQL 数据库的目的是为最终用户和自动化的大数据应用程序提供大量存储在多结构化数据中的离散数据。这种能力是关系型数据库欠缺的,它根本无法在大数据规模维持基本的性能水平。

  在某些情况下,NoSQL和Hadoop协同工作。例如,HBase是流行的NoSQL数据库,它仿照谷歌的BigTable,通常部署在HDFS(Hadoop分布式文件系统)之上,为Hadoop提供低延迟的快速查找功能。

  目前可用的NoSQL数据库包括:

  · HBase

  · Cassandra

  · MarkLogic

  · Aerospike

  · MongoDB

  · Accumulo

  · Riak

  · CouchDB

  · DynamoDB

  目前大多数NoSQL数据库的缺点是,为了性能和可扩展性,他们遵从ACID(原子性,一致性,隔离性,持久性)原则。许多NoSQL数据库还缺乏成熟的管理和监控工具。这些缺点在开源的NoSQL社区和少数厂商的努力下都在克服过程中,这些厂商包括DataStax,Sqrrl,10gen,Aerospike和Couchbase,他们正在尝试商业化各种NoSQL数据库。

  大规模并行分析数据库

  不同于传统的数据仓库,大规模并行分析数据库能够以必需的最小的数据建模,快速获取大量的结构化数据,可以向外扩展以容纳TB甚至PB级数据。

  对最终用户而言最重要的是,大规模并行分析数据库支持近乎实时的复杂SQL查询结果,也叫交互式查询功能 ,而这正是Hadoop显著缺失的能力。大规模并行分析数据库在某些情况下支持近实时的大数据应用。大规模并行分析数据库的基本特性包括:

  大规模并行处理的能力: 就像其名字表明的一样,大规模并行分析数据库采用大规模并行处理同时支持多台机器上的数据采集、处理和查询。相对传统的数据仓库具有更快的性能,传统数据仓库运行在单一机器上,会受到数据采集这个单一瓶颈点的限制。

  无共享架构: 无共享架构可确保分析数据库环境中没有单点故障。在这种架构下,每个节点独立于其他节点,所以如果一台机器出现故障,其他机器可以继续运行。对大规模并行处理环境而言,这点尤其重要,数百台计算机并行处理数据,偶尔出现一台或多台机器失败是不可避免的。

  列存储结构: 大多数大规模并行分析数据库采用列存储结构,而大多数关系型数据库以行结构存储和处理数据。在列存储环境中,由包含必要数据的列决定查询语句的“答案”,而不是由整行的数据决定,从而导致查询结果瞬间可以得出。这也意味着数据不需要像传统的关系数据库那样构造成整齐的表格。

  强大的数据压缩功能: 它们允许分析数据库收集和存储更大量的数据,而且与传统数据库相比占用更少的硬件资源。例如,具有10比1的压缩功能的数据库,可以将10 TB字节的数据压缩到1 TB。数据编码(包括数据压缩以及相关的技术)是有效的扩展到海量数据的关键。

  商用硬件: 像Hadoop集群一样,大多数(肯定不是全部)大规模并行分析数据库运行在戴尔、IBM等厂商现成的商用硬件上,这使他们能够以具有成本效益的方式向外扩展。

  在内存中进行数据处理: 有些(肯定不是全部)大规模并行分析数据库使用动态RAM或闪存进行实时数据处理。有些(如SAP HANA和 Aerospike)完全在内存中运行数据,而其他则采用混合的方式,即用较便宜但低性能的磁盘内存处理“冷”数据,用动态RAM或闪存处理“热”数据。

  然而,大规模并行分析数据库确实有一些盲点。最值得注意的是,他们并非被设计用来存储、处理和分析大量的半结构化和非结构化数据。

时间: 2024-08-02 02:55:22

必读!大数据:Hadoop,业务分析及更多(2)的相关文章

IDC:银行业和制造业推动全球大数据和业务分析市场双位数增长

据IDC全球半年度大数据和分析开支指南称,全球大数据和业务分析(BDA)的收入将从2016年的1301亿美元增长到2020年的2030亿美元. "数据的可用性.新一代技术.向数据驱动决策转变的文化,这将继续成为对大数据和分析数据及服务需求的推动力,"IDC分析和信息管理副总裁Dan Vesset表示."这个市场在2015年收入达到1220亿美元之后,预计2016年的收入将增长11.3%,并且预计到2020年之前的复合年增长率为11.7%." "推动这一增长

IDC:2017年大数据和业务分析收入将突破1508亿美元

根据IDC半年度全球大数据和分析开支指南,IDC预测大数据和业务分析(BDA)收入到2017年将达到1508亿美元,相比2016年增长12.4%.BDA相关硬件.软件和服务的商业采购预计到2020年前将保持11.9%的复合年增长率,收入将超过2100亿美元. IDC分析和信息管理副总裁Dan Vesset表示:"在经过多年的采用S曲线之后,大数据和业务分析解决方案终于步入了主流.BDA作为决策支持和决策自动化的推动技术,现在已经受到了高层管理者的关注.这一类解决方案也是在全球各行业和业务流程实现

全球大数据和业务分析收入预计到2019年突破1870亿美元

根据IDC新的全球半年度大数据和分析开支指南,全球大数据和业务分析收入将从2015年的1220亿美元增加到2019年超过1870亿美元,在5年间的增幅超过50%.这个新的开支指南在IDC此前的预期基础上进行了扩展,提供了技术.行业和地区方面的详细收入信息. 在大多数的预测期内,服务相关的商机将在所有大数据和业务分析收入中占到超过一半的份额,IT服务的收入是业务服务年收入的近3倍.软件将是第二大类别,到2019年收入规模将超过550亿美元.其中近一半的收入将来自于最终用户查询.报告.分析工具和数据

2017年大数据和业务分析收入将达到1508亿美元

日前,调研机构IDC公司的一份新报告表明,2017年大数据和业务分析(BDA)的全球收入预计将达到1508亿美元,将比2016年同比增长12.4%. 该报告指出,2017年,银行,离散制造,流程制造,政府部门,以及专业服务等在业务分析(BDA)中将有最大的投资力度,预计今年将花费724亿美元. IDC公司分析和信息管理副总裁Dan Vesset在一份声明中说,"业务分析(BDA)作为决策支持和决策自动化的推动者,已成为高层管理人员所青睐的措施,这类解决方案也是实现全球各行业和业务流程的数字化转型

必读!大数据:Hadoop,业务分析及更多(1)

翻译:Cady Wang(王楠楠) 你想了解大数据,却对生涩的术语毫不知情?你想了解大数据的市场和应用,却又没有好的案例和解说?别担心,这本来自Wikibon社区的小书想要帮你. 是的,这是一本小书而不是一篇文章,因为它详实细致的让你从一个完全不了解大数据技术及相关应用的门外汉,变成一个熟知其概念和意义的"内行人",所以它很棒! 译者Cady王楠楠花费了很多心血翻译这本小书,不足之处也请朋友们多指正.我们分成数篇连载. --世界大数据观察,宋星 主要内容 · 1来自Wikibon社区的

Teradata天睿公司获评大数据Hadoop优化系统领域的领导者

ZD至顶网CIO与应用频道 06月06日 北京消息:全球知名市场分析公司Forrester 的最新报告显示,全球领先的大数据分析服务供应商Teradata天睿公司(Teradata Corporation,纽交所:TDC) 被评为大数据 Hadoop 优化系统(Big Data Hadoop-Optimized Systems)的三大领导者之一.该报告为<Forrester浪潮:2016 年第二季度大数据 Hadoop 优化系统报告>,由 Noel Yuhanna 和 Mike Gualtie

大数据意味着向黑客暴露更多数据?

本文讲的是大数据意味着向黑客暴露更多数据,当有朋友问我是否了解"大数据"的安全问题时,我想到的是,大数据只是更多的数据,所以大数据面对着与其他数据相同的问题,是这样吗? 这似乎过度简化了大数据的问题.在某种程度上说,管理大数据就像带小孩一样,带两个小孩的工作量并不只是一个小孩的两倍,更像是指数关系.随着大数据的增长,潜在的管理问题也会呈指数增长. 对于大数据,你必须明白,它不仅意味着更多数据,它也意味着更复杂的数据,更敏感的数据,它还意味着可能向成功渗入网络的攻击者暴露更多数据.如果潜

支付行业,如何通过日志大数据实现深度分析及风控

本文主要讲述针对支付行业,日志易产品如何通过日志大数据实现业务深度分析及风险控制. 伴随新的支付方式出现,近年来移动支付蓬勃发展,如何分析.利用海量交易数据,已成为当前支付企业面对的巨大难题.日志作为数据的载体,蕴含着丰富的信息,传统的日志分析方式低效而固化,无法应对数据体量大.格式不统一.增长速度快的现状,在交易出现异常及失败时,更难以满足实时处理.快速响应的需求.本文讲述某支付公司采用日志易后,通过日志大数据实现业务深度分析及风险控制的实践经验. 图片来自:前瞻网 本次分享结合企业自身对支付

大数据:安全分析产品的发展重点

文章讲的是大数据:安全分析产品的发展重点,在本届RSA大会上,业界众多厂商都强调了合理利用大数据以提高安全性的重要性.但在安全领域,大家对大数据仍然持怀疑态度.Enterpirse企业战略集团高级首席分析师Jon Oltsik说道,"对于安全人员而言,这个术语有些模糊,但他们已经开始收集大量数据." 现在已经有很多供应商开始围绕网络取证和风险管理构建大数据解决方案.在RSA大会上,很多供应商(从IBM到Agilliance再到EMC的RSA安全分公司)都推出了利用大数据提高安全性的产品