浅谈Hadoop生态系统

大数据在2014年逐渐爆发,越来越多的企业发现了大数据的用途,不仅可以用来管理每天的业务流程,还能解决复杂的商业问题。大数据很快跃升为热点词,并将自己打造成可以解决大大小小商业实体问题的可靠技术。

大数据,顾名思义,就是在我们周围存在的巨大量级数据,这些数据可以是在智能设备、互联网、社交媒体、聊天室、移动APP、电话呼叫、商品购买等一系列使用活动中产生。大数据技术就是用来收集、存储和分析这些量级(一般达到拍字节)的信息。

大数据技术彻底改变了人们看待数据和数据库存储的方式,颠覆了数据的使用方法。在军事上,大数据可以用来阻止外敌的入侵。在NBA比赛中,大数据技术可以捕获和分析成千上万的个体运动。医学上使用大数据技术来抵抗癌症和心脏病。汽车公司通过大数据技术实现汽车自驾和互通信。

大数据正在改变世界。那么,这一切的背后是什么软件系统在支撑?大数据技术又是如何迅速流行并保持上升趋势的呢?

答案是Hadoop。

很多人认为Hadoop就是大数据。其实并不是这样的。大数据在Hadoop之前就产生了,而且在没有Hadoop的情况下可以继续存在。不过目前Hadoop是大数据的有力搭档,它们有着密切的关系。正因为如此,导致很多人使用Hadoop,如今你几乎找不到一家没有使用Hadoop软件的大数据公司。那么Hadoop到底是什么?

Hadoop是一个“软件库”,它让用户可以通过简单的编程模型操纵计算机集群来处理大型数据集。换个说法就是,它让企业有能力去收集、存储和分析大量的数据集。

此外,理解Hadoop的一个很重要的方面是,它是一个软件库。Hadoop中包含大量的程序库,这些程序补充基础的Hadoop框架,让企业有合适的工具去获得想要的Hadoop结果。

接下来,让我们了解一下Hadoop的生态系统。更多信息可以参见Hadoop官网。

Hadoop项目包括很多组件——Hadoop Common,Hadoop Distributed File System,Hadoop YARN和Hadoop MapReduce。这些组件系统共同提供给用户并支持附加的Hadoop工程的工具,让用户有能力实时处理大数据集,在这里Hadoop自动调度任务和管理集群资源。

下面列出一些Hadoop组件,不同的组件分别提供特定的服务。

ApacheHive:数据仓库基础设施,提供数据汇总和特定查询。这个系统支持用户进行有效的查询,并实时得到返回结果。

ApacheSpark:Apache Spark是提供大数据集上快速进行数据分析的计算引擎。它建立在HDFS之上,却绕过了MapReduce使用自己的数据处理框架。Spark常用于实时查询、流处理、迭代算法、复杂操作运算和机器学习。

ApacheAmbari:Ambari用来协助管理Hadoop。它提供对Hadoop生态系统中许多工具的支持,包括Hive、HBase、Pig、 Spooq和ZooKeeper。这个工具提供集群管理仪表盘,可以跟踪集群运行状态,帮助诊断性能问题。

ApachePig:Pig是一个集成高级查询语言的平台,可以用来处理大数据集。

ApacheHBase:HBase是一个非关系型数据库管理系统,运行在HDFS之上。它用来处理大数据工程中稀疏数据集。

其他常见的Hadoop项目还包括Avro、Cassandra、Chukwa, Mahout和ZooKeeper。

用户通过Hadoop可以利用许多工具和资源,用真正的大数据技术来适应不同的业务需求。

免费订阅“CSDN云计算(左)和CSDN大数据(右)”微信公众号,实时掌握第一手云中消息,了解最新的大数据进展!
CSDN发布虚拟化、Docker、OpenStack、CloudStack、数据中心等相关云计算资讯,     分享Hadoop、Spark、NoSQL/NewSQL、HBase、Impala、内存计算、流计算、机器学习和智能算法等相关大数据观点,提供云计算和大数据技术、平台、实践和产业信息等服务。

时间: 2024-08-17 12:12:17

浅谈Hadoop生态系统的相关文章

浅谈Hadoop系统架构与海量数据分析

微软近日宣布开发一个兼容Windows Server与Windows Azure平台的Hadoop开源版本.IBM宣布在Hadoop上建立新的存储架构,作为群集运行DB2或Oracle数据库,目的是让应用程序,支持高性能分析,数据仓库应用程序和云计算的目的.EMC也推出了世界上第一个定制的.高性能的Hadoop专用数据协同处理设备--Greenplum HD数据计算设备,为客户提供了最强大.最高效率的方法,充分挖掘大数据的价值.互联网搜索巨头百度也在考虑使用Hadoop.不过,出于性能与安全的考

浅谈Hadoop

大数据的概念炒了好多年了,很显然这项技术经受住了时间的考验,不是有些人想的那样华而不实,多年来总是伴随着Hadoop的身影越发壮大. 这些年来数据的增长量真是发生了天翻地覆的变化,原来大家过年的时候都会很认真的拍一张全家福,恨不得把胶卷能够正反两用,多存点照片,现在好了,手机各类终端齐上阵,微博,微信,图片,小视频,所有的数据真是应有尽有.数据量上来了,数据的分析工作就显得尤为重要了.用现在很形象的一种描述就是,让数据说话. Hadoop的使命就是主要海量数据的存储和分析,也有两个核心的功能,一

浅谈Hadoop YARN资源隔离机制

编者按:Hadoop  YARN同时支持内存和CPU两种资源的调度,在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离.本文董西城将会介绍YARN在资源隔离方面的一些进展. 作者原文: 资源调度和资源隔离是YARN作为一个资源管理系统,最重要和最基础的两个功能.资源调度由ResourceManager完成,而资源隔离由各个NodeManager实现,在

浅谈大规模Hadoop集群自动化部署与运维

文章讲的是浅谈大规模Hadoop集群自动化部署与运维,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行.来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲IT168专题报道:http://www.it168.com/r

《Hadoop与大数据挖掘》——第一篇 基 础 篇 第1章 浅谈大数据 1.1 大数据概述

第一篇 基 础 篇 第1章 浅谈大数据 当你早上起床,拿起牙刷刷牙,你是否会想到从拿起牙刷到刷完牙的整个过程中有多少细胞参与其中?这些细胞在参与的过程中会结合周围环境(可能是宏观的天气.温度.气压等,可能是微观的分子.空气中的微生物等),由你的意识控制而产生不同的反映.如果我说结合这些所有的信息,可以预测你接下来的0.000 000 01秒的动作,那么,你肯定说,这我也可以预测呀.比如正常情况下,你脚抬起来走路,那么抬起来后,肯定是要落下去的,这算哪门子预测呢?那如果我说可以预测你接下来一个小时

浅谈开源大数据平台的演变

浅谈开源大数据平台的演变 2015-04-16 腾讯大数据一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现.虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用.降低使用门槛.带动业界大规模部署的就是Hadoop.得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一.Hadoop能够满足大部分的离线存储和离线计算需求,且性能表现不俗:小部分离线存储和计算

浅谈大数据:如何成为大数据企业?

文章讲的是浅谈大数据:如何成为大数据企业,1.什么叫大数据? "大数据"是"数据化"趋势下的必然产物!数据化最核心的理念是:"一切都被记录,一切都被数字化".最近2年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和,更重要的是,数据来源极大丰富,形成了多源异构的数据形态,其中非结构化数据所占比重逐年增大.牛津大学互联网研究所Mayer-Schonberger教授指出,"大数据"所代表的是当今社会所独有的一种新型的

浅谈大数据处理技术架构的演进

浅谈大数据处理技术架构的演进 任桂禾 王晶 新兴应用对大数据处理技术架构的实时性要求不断提高,这对传统的大数据处理技术架构提出严峻的挑战.必须转变架构满足大数据相关业务的实时性要求.文章介绍Hadoop离线处理架构的瓶颈以及Storm实时处理架构的优点,同时,结合实际项目中变更大数据处理技术架构的经验,阐述在实施架构变更过程中的关键技术,实验结果证明使用变更后的技术架构可以满足业务的实时性要求. 浅谈大数据处理技术架构的演进

【转载】运维角度浅谈MySQL数据库优化

 运维角度浅谈MySQL数据库优化 2015-06-02 14:22:02 标签:mysql优化   mysql分库分表分区 mysql读写分离 mysql主从复制 原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://lizhenliang.blog.51cto.com/7876557/1657465   一个成熟的数据库架构并不是一开始设计就具备高可用.高伸缩等特性的,它是随着用户量的增加,基础架构才逐渐完善.这篇博文主要谈My