What is Apache Hadoop?

本文来自:自译+百度
Apache Hadoop 是一款可靠、可升级、分布式计算的开源软件。
Apache Hadoop 的开源软件库是专门为处理跨大数据簇而设计的处理模型族。它主要被设计用来按比例从一个到成千上万的无服务平均的分配计算任务和内存。而不是依靠硬件提供高可用性,库本身的目的是检测和处理应用层的故障,因此再一组计算机上提供高可用性服务,每一台计算机都容易出现故障。
这个项目包括这些模型:
Hadoop Common:支持其它Hadoop模块的通用实用程序。
Hadoop Distributed File System(HDFS):提供对应用程序数据的高通量访问的分布式文件系统。
Hadoop YARN:作业调度与集群资源管理框架。
Hadoop MapReduce:基于线性的大数据量并行处理系统。
Apache 中的其它与Hadoop相关的项目包括:
Ambari:一个基于网络的工具、配置、管理、监控Apache的Hadoop集群包括Hadoop HDFSHiveHCatalogHBaseZooKeeperOoziePig and Sqoop.Ambari还提供了一个仪表板查看集群健康如热图和查看MapReduce能力,Pig和Hive应用视觉和功能,一个用户友好的方式其性能诊断。
Avro:数据序列化系统。
Cassandra:无单点故障的可扩展多主数据库。
ChukWa:一个用于管理大型分布式系统的数据采集系统。
HBase:一个可扩展的,支持结构化数据存储的大型分布式数据库。
Hive:数据仓库的基础设施,提供数据汇总和专案查询。
Mahout:一个可扩展的机器学习和数据挖掘库。
Pig:高级数据流语言和执行框架的并行计算。
Spark:快速和通用计算的Hadoop数据引擎。Spark提供了一个简单而富有表现力的比那成模型,支持多种应用,包括ETL, 机器学习,数据流处理,图形计算。
Tez:广义数据流变成框架,建立在Hadoop之上,他提供了一个强大灵活的引擎来执行任务的任意DAG为批处理和交互式的使用情况数据的过程。Tez采用Hadoopd的生态系统,在Pig等框架和其它的商业软件中渠道MapReduce Hadoop作为执行表的存在。
ZooKeeper:分布式应用的高性能的协调服务。

时间: 2024-09-26 14:41:39

What is Apache Hadoop?的相关文章

绿盟科技网络安全威胁周报2017.23 关注Apache Hadoop远程提权漏洞CVE-2017-7669

绿盟科技发布了本周安全通告,周报编号NSFOCUS-17-23,绿盟科技漏洞库本周新增41条,其中高危5条.本次周报建议大家关注 Apache Hadoop远程权限提升漏洞 .目前厂商已经发布了升级补丁以修复此安全问题,请用户及时升级补丁修复此漏洞. 焦点漏洞 Apache Hadoop远程权限提升漏洞 NSFOCUS ID  36777 CVE ID  CVE-2017-7669 受影响版本 Apache Group Hadoop 3.0.0-alpha2 Apache Group Hadoo

【干货】Apache Hadoop 2.8 完全分布式集群搭建超详细过程,实现NameNode HA、ResourceManager HA高可靠性

最近在自己的笔记本电脑上搭建了Apache Hadoop分布式集群,采用了最新的稳定版本2.8,并配置了NameNode.ResourceManager的HA高可用,方便日常对Hadoop的研究与测试工作.详细的搭建过程如下: 1.安装docker,创建docker容器,用于搭建hadoop节点 docker真是个好东西啊,当要在自己的笔记本上搭建分布式集群时,由于CPU.内存.磁盘有限,无法在VMware上虚拟出太多节点,这时使用docker创建几个容器,就能轻松搭建一个分布式集群了. (1)

org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times 异常的解决

在使用HBase Shell的时候出现错误: ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times 查看一下logs: FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown. org.apache.hadoop.ipc.RPC$VersionMismatch: Protocol org.a

《Spark与Hadoop大数据分析》一一2.1 Apache Hadoop概述

2.1 Apache Hadoop概述 Apache Hadoop 是一个软件框架,可以在具有数千个节点和 PB 级数据的大型集群上进行分布式处理.Apache Hadoop 集群可以使用故障率一般较高的低价通用硬件来构建.Hadoop 的设计能够在没有用户干预的情况下优雅地处理这些故障.此外,Hadoop 采用了让计算贴近数据(move computation to the data)的方法,从而显著降低了网络流量.它的用户能够快速开发并行的应用程序,从而专注于业务逻辑,而无需承担分发数据.分

比较Apache Hadoop 生态系统中不同的文件格式和存储引擎的性能

主题 这篇文章提出了在Apache Hadoop 生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能:Apache Avro, Apache Parquet, Apache HBase 和 Apache Kudu 空间效率, 提取性能, 分析扫描以及随机数据查找等领域.这有助于理解它们中的每一个如何(何时)改善你的大数据工作负载的处理能力. 引言 最初把hadoop文件格式和存储引擎做比较的想法是在初始系统修订版之一的驱动下完成的 –这个系统是在CERN中大规模调节Hadoop-ATLA

大数据的救世主:Apache Hadoop和Hive

Apache Hadoop和MapReduce吸引了大量大数据分析专家和商业智能专家的眼球.然而将Hadoop分散文件系统广泛化,或能用Java语言编写或执行Mapreduce工作则需要真正严格上乘的软件开发技术.Apache Hive将是唯一的解决办法. Apache软件基础工程Hive的数据库组成部分,也是基于云的Hadoop生态系统,提供了基于语境的查询语句称作Hive查询语句.这套语句将SQL类查询语句自动翻译成MapReduce工作指令. 相关数据库,如IBM DB2,Oracle和S

满满的技术干货!Hadoop顶级会议Apache Hadoop Summit精华讲义分享

Apache Hadoop Summit是Hadoop技术的顶级会议,这里大咖云集,一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践. 本文整理了Apache Hadoop Summit  Tokyo 2016上的精选演讲的讲义,无论是你想要的是Hadoop发展前沿,是Hadoop优化技巧,还是技术最佳实践,统统都在这里! [Hadoop Summit Tokyo 2016]Apache NiFi速成课 [Hadoop Summit Tokyo 2016]重建大规模Web跟踪设施

发布Apache Hadoop 2.6.0——异构存储,长时间运行的服务与滚动升级支持

发布Apache Hadoop 2.6.0--异构存储,长时间运行的服务与滚动升级支持 我很高兴地宣布,在Apache的Hadoop社区已经发布的Apache Hadoop的2.6.0:http://markmail.org/message/gv75qf3orlimn6kt! 特别是,我们很高兴在此版本中相关的三个主要片:异构存储在HDFS使用SSD和内存层,支持长时间运行在YARN服务和滚动升级,将升级您的集群软件,然后重新启动升级的节点而无需关闭群集或丢失正在进行的工作.YARN作为其架构中

hadoop 异常记录 ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times

当我把hadoop.hbase安装配置(具体参考这里)好了之后,启动hbase的shell交互模式,输入命令却出现了下面这样的错误: ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times 这是为什么呢,Master为什么没有启动起来呢? 查看logs目录下的Master日志,发现有以下信息: 2012-02-01 14:41:52,867 FATAL org.apache.hadoop.hbase.ma

Google Dremel vs. Apache Hadoop

Naresh Kumar在介绍两者之间的区别之前,首先针对Google Dremel进行简单的描述: 什么是Google Dremel? Google Dremel是个可扩展的.交互式的即时查询系统,专注于只读嵌套(nested)数据的分析.通过集合不同层次的执行树和柱状的数据布局,他能够在几秒内完成在万亿张表上的聚合查询.系统可以扩展到成千上万的CPU上,满足Google上万用户操作PB及的数据. Apache Hadoop vs Google Dremel:两者之间的不同 Dremel是个数