Hadoop生态系统工具指南

Hadoop工具生态系统生长迅速,以下是IT经理网整理的最新Hadoop工具资源,供IT经理日常参考,欢迎读者来信或留言补充。

Hadoop

Apache hadoop项目负责开发可靠的、可扩展的分布式计算开源软件。

网址:hadoop.apache.org

 

HDFS

分布式文件系统提供高速的应用数据访问。

网址:hadoop.apache.org/hdfs/

 

MapReduce

在计算机集群上进行大数据分布式处理的软件框架。

 

亚马逊Elastic MapReduce

亚马逊Elastic MapReduce是一种web服务,能让企业、研究人员、数据分析师和开发者低成本快速处理海量数据。该服务是托管于亚马逊弹性云(EC2)和亚马逊S3存储云上的web大规模基础架构上的Hadoop框架。

网址:aws.amazon.com/elasticmapreduce/

 

Cloudera Hadoop发行版(CDH)

Cloudera的Hadoop发行版(CDH)为基于Hadoop的数据管理平台树立了新的标杆。

网址:cloudera.com/hadoop

 

ZooKeeper

针对分布式应用的高性能协调服务。ZooKeeper为配置信息、命名提供集中化管理服务,支持分布式同步,并提供群组服务。

网址:hadoop.apache.org/zookeeper/

 

HBase

可扩展的分布式数据库,支持大表(big table)的结构化数据存储。

网址:hbase.apache.org

 

Avro

数据序列化系统。与ThriftProtocolbuffers类似。

avro.apache.org

 

Sqoop

Sqoop(SQL-to-Hadoop),是命令行工具,有以下功能:

    • ● 将单独的表或者整个数据库导入HDFS文件
    • ● 通用Java库支持与导入数据的互动
    • ● 支持将SQL数据库直接导入你的Hive数据仓库

网址:cloudera.com/downloads/sqoop/

 

Flume

Flume是一个分布式高可靠的大数据传输服务。

网址:archive.cloudera.com/cdh/3/flume/

 

Hive

Hive是基于Hadoop的数据仓库基础架构,提供的工具能进行简便的数据汇总、ad-hoc查询,以及对存储在Hadoop文件中的大数据集的分析。Hive提供一种简单易用的查询语言——Hive QL,该语言基于SQL,这意味着那些对SQL熟悉的用户可以像使用SQL数据库一样查询大数据。Hive QL还云寻传统的map/reduce程序员插入他们自己的mappers和reducers,进行更为复杂的分析。

网址:hive.apache.org

 

Pig

Pig是一种高阶数据流语言和并行计算的执行框架。Apache Pig是一个大数据集分析平台,提供了一种表达数据分析程序的高阶语言,以及评估这些程序的基础架构。Pig程序的最大优点是其架构能为底层并行化进行调整,从而能处理非常大规模的数据集。

网址:pig.apache.org

 

Oozie

Oozie 是一个开源的工作流和协作服务引擎,为管理Apache hadoop数据处理任务提供工作流/协作服务。Oozie 是可扩展的、可伸缩的面向数据的服务,运行在Hadoop 平台上,协调Hadoop上运行的不同任务(包括HDFS,Pig和MapReduce)。

Oozie 包括一个离线的Hadoop处理的工作流解决方案,以及一个查询处理 API。

网址:yahoo.github.com/oozie

 

Cascading

Cascading是一个查询API和查询计划器,被用于定义和执行Hadoop集群上运行的复杂、可自由扩展、可容错的数据处理工作流。

网址:cascading.org

 

Cascalog

Cascalog一种能使在Hadoop上使用Clojure处理数据变得简单直观的工具。Cascalog综合了两大顶尖技术:Clojure和Hadoop,同时让Datalog焕发青春。Cascalog的特点是高性能、灵活和鲁棒。

网址:github.com/nathanmarz/cascalog

 

HUE

Hue是运营和开发Hadoop应用的图形化用户界面。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,对于单独的用户来说不需要额外的安装。

网址:archive.cloudera.com/cdh3/hue   更多信息:Cloudera
blog

 

Chukwa

Chukwa是面向大型分布式系统的数据采集系统。Chukwa基于Hadoop HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和容错性。Chukwa还提供一个灵活而强大的工具包,用于显示、监控和分析分析结果,更好地利用所收集的数据。

网址:incubator.apache.org/chukwa/

 

Mahout

一种可扩展的机器学习和数挖掘库。

网址:mahout.apache.org

时间: 2024-09-07 07:48:51

Hadoop生态系统工具指南的相关文章

《Hive编程指南》一1.2 Hadoop生态系统中的Hive

1.2 Hadoop生态系统中的Hive WordCount算法,和基于Hadoop实现的大多数算法一样,有那么点复杂.当用户真正使用Hadoop的API来实现这种算法时,甚至有更多的底层细节需要用户自己来控制.这是一个只适用于有经验的Java开发人员的工作,因此也就将Hadoop潜在地放在了一个非程序员用户无法触及的位置,即使这些用户了解他们想使用的算法. 事实上,许多这些底层细节实际上进行的是从一个任务(job)到下一个任务(job)的重复性工作,例如,将Mapper和Reducer一同写入

Hadoop 生态系统

1.概述 最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的生态系统,并将其进行了归纳总结,进而将其以表格的形式进行了罗列.涉及的内容有以下几点: 分布式文件系统 分布式编程模型 NoSQL 数据库 SQL-On-Hadoop 数据采集 编程服务中间件 调度系统 系统部署 数据可视化 2.内容 2.1 分布式文件系统 2.1.1 Apache HDFS 在分布式文件系统当中,首先为

《Hadoop与大数据挖掘》一2.1.5 Hadoop生态系统

2.1.5 Hadoop生态系统 如图2-12所示,Hadoop的生态圈其实就是一群动物在狂欢.我们来看看一些主要的框架. (1)HBase HBase(Hadoop Database)是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群.(2)Hive Hive是建立在Hadoop上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在Hadoop中的大规模

IDC:大数据不等于Hadoop 中国Hadoop生态系统亟待完善

IDC近期发布的<中国Hadoop MapReduce生态系统分析>报告指出,在中国,Hadoop 应用正在从互联网企业,逐渐拓展到电信,金融,政府,医疗这些传统行业.虽然目前Hadoop应用场景还是以日志存储.查询和非结构化数据处理为主,但是Hadoop技术的不断成熟以及生态系统相关产品的完善,包括Hadoop对SQL不断加强的支持,以及主流商业软件厂商对Hadoop支持的不断增强,会带动Hadoop 渗透到越来越多的应用场景中. 2013年是中国大数据的应用落地年,越来越多的行业用户开始重

浅谈Hadoop生态系统

大数据在2014年逐渐爆发,越来越多的企业发现了大数据的用途,不仅可以用来管理每天的业务流程,还能解决复杂的商业问题.大数据很快跃升为热点词,并将自己打造成可以解决大大小小商业实体问题的可靠技术. 大数据,顾名思义,就是在我们周围存在的巨大量级数据,这些数据可以是在智能设备.互联网.社交媒体.聊天室.移动APP.电话呼叫.商品购买等一系列使用活动中产生.大数据技术就是用来收集.存储和分析这些量级(一般达到拍字节)的信息. 大数据技术彻底改变了人们看待数据和数据库存储的方式,颠覆了数据的使用方法.

什么是 Hadoop 生态系统

在一些 Teiid 的一些文章和示例上都会有关于 JBoss Data Virtualization (Teiid) 通过 Hive 使用 Hadoop 作为数据源的信息.当使用 Hadoop 环境创建 Data Virtualization 示例时,比如 Hortonworks Data Platform, Cloudera Quickstart 等等,里面会包含大量的开源项目.本篇文章主要是对 Hadoop 生态系统有个初步的认识,以下的一些开源项目详情可以查看 hadoop ecosyst

壮大的Hadoop生态系统:十大炫酷项目简介

在开发人员开发Hadoop以克服大数据带来的挑战之后的10年间,这些技术的生态系统在不断发展壮大.Apache软件基金会下面有众多的开源大数据技术项目.本文介绍一些重要项目,并顺便了解几个新兴项目. 管理和分析大数据已经变成了重大挑战,数量急剧增加的信息从社交媒体.连接到物联网中"物件"的传感器.结构化数据.非结构化数据以及可以收集的其他一切数据收集而来.为了应对这项任务,开发人员已开发了一系列新的开源技术. 旗舰软件Apache Hadoop是Apache软件基金会的一个项目,它在上

比较Apache Hadoop 生态系统中不同的文件格式和存储引擎的性能

主题 这篇文章提出了在Apache Hadoop 生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能:Apache Avro, Apache Parquet, Apache HBase 和 Apache Kudu 空间效率, 提取性能, 分析扫描以及随机数据查找等领域.这有助于理解它们中的每一个如何(何时)改善你的大数据工作负载的处理能力. 引言 最初把hadoop文件格式和存储引擎做比较的想法是在初始系统修订版之一的驱动下完成的 –这个系统是在CERN中大规模调节Hadoop-ATLA

Hadoop生态系统地图:大象王国的八大族群

无论你是否承认,Hadoop如今已经成为大数据运动的代名词和重心.围绕Hadoophttp://www.aliyun.com/zixun/aggregation/6196.html">产品技术已经形成软件.应用.服务的综合体,或者说生态系统.Hadoop生态系统就像一颗年轻的超新星,随时都在快速分化和增长,新产品.新模式不断涌现. 为了帮助企业和业界的大数据技术和应用的实践者快速理清Hadoop生态系统的头绪,GigaOM最近制作了一张Hadoop生态系统地图,按照不同的应用场景和交付模式