大数据兵器谱之数据其他篇

ZooKeeper 

Apache ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、命名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

Chukwa 

Apache Chukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。

Ambari 

Apache Ambari是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。

Sqoop 

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。

Oozie 

Apache Oozie是一个可扩展、可靠及可扩充的工作流调度系统,用以管理Hadoop作业。Oozie Workflow作业是活动的Directed Acyclical Graphs(DAGs)。Oozie Coordinator作业是由周期性的Oozie Workflow作业触发,周期一般决定于时间(频率)和数据可用性。Oozie与余下的Hadoop堆栈结合使用,开箱即用的支持多种类型Hadoop作业(比如:Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp)以及其它系统作业(比如Java程序和Shell脚本)。

时间: 2024-09-13 10:41:43

大数据兵器谱之数据其他篇的相关文章

大数据基础知识问答----spark篇,大数据生态圈

Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点:但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法. 2.Spark与Hadoop的对比(Spar

大数据传统企业实施理性篇---请放慢你的步伐

一.楔子 社区的力量是巨大的,开源的诱惑也 是魅力无穷,靠忽悠无法长久的云计算已是昨日黄花,IT新贵的发力点聚焦大数据,言必称大数据,语必谈数据黄金,更有甚者,高唱2013是大数据元 年,2014必将是大数据爆发的一年.而企业也已躁动不安,纷纷举旗遥相呐喊:"大数据我来了".在此给这些企业泼盆冷水,降降温度.让大数据回归理性. 二.追本溯源-我们为什么需要大数据 基于开源平台发展起来的大数据技术,其发展的原动力来源于企业面临的瓶颈,这些瓶颈包括三个大的方面. 1.技术方面: 技术方面传

大数据,小数据,哪道才是你的菜?

美国著名科技历史学家梅尔文•克兰兹伯格Melvin Kranzberg曾提出过大名鼎鼎的科技六定律其中第三条定律是这样的[1]"技术是总是配"套"而来的但这个"套"有大有小Technology comes in packages, big and small". 这个定律用在当下是非常应景的.因为我们正步入一个"大数据big data"时代但对于以往的"小数据small data"我们能做到"事了

大数据,小数据,哪道才是你的菜

美国著名科技历史学家梅尔文?克兰兹伯格(Melvin Kranzberg),曾提出过大名鼎鼎的科技六定律,其中第三条定律是这样的[1]:"技术是总是配"套"而来的,但这个"套"有大有小(Technology comes in packages, big and small)". 这个定律用在当下,是非常应景的.因为,我们正步入一个"大数据(big data)"时代,但对于以往的"小数据(small data)&quo

从数据来源、数据生态、数据技术、数加平台等方面,漫谈阿里大数据

目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的. 一,DT时代 大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预测未来几年的趋势,来指导商业决策.比如保险行业,人寿保险会通过大数据的统计计算,根据人均寿命来计算保费与回报率. 这

企业数据世界论坛结题篇:洞察行业趋势,倾听中国好声音

大数据文摘和御数坊合作,带给您"数据治理与管理领域"顶尖时讯.此活动由御数坊创始人刘晨,亲临美国企业数据世界EDW2015大会现场,为您报道大数据最不应却又最容易被忽略的内容,大数据文摘和御数坊同步为您传递... 御数坊简介 微信ID: DGWorkshop_CN 专注于数据治理与管理领域,致力于将全球最优质的数据治理与数据管理资源带给中国数据从业者,帮助中国各行各业企业客户夯实数据基础,提升数据质量,为数据资产价值的挖掘和创造保驾护航. 美国东部时间4月1日至4月3日上午,第19届企

小白学数据之NoSQL数据库 进阶篇

写在前面 这篇是小白学数据系列的NoSQL数据库的第二篇:进阶篇.数据分析方向的从业人员可以从中获取数据仓库软件市场的现状和分析,以增加自己的知识储备,为可能的技术转型打基础.而工程师可以找到关于NoSQL主流产品的分析介绍以及选择数据库的一些准则.NoSQL不是万能药,采用技术最好不要跟风,选择适合自己数据和应用的才是最好的哟~没有看过NoSQL基础篇的读者可以在文末的历史文章回顾中找到. ◆ ◆ ◆ 小白问:上次问了NoSQL,SQL的区别,好像有点忘了,我们可以温故而知新一下吗? 答:..

大数据不只是数据大 全面解析大数据

在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术.新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来.究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很"土鳖";二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然. 我希望有些不一样,所以对该如何去认识大数据进行了一番思索,包括查阅了资料,翻阅了最新的专业书籍,但我并不想把那些零散的资料碎片或不同理解论述简单规整并堆

超越大数据,运用数据思维助力企业战略决策和业务运营

什么才是大数据? 大数据不是简单地等于大量的数据.大数据的概念也包括了在实际应用过程中,数据处理的难度和挑战性. 从业务线的角度来讲,大数据的发展史经历了这五步: 第一是金融财务公司,比如很多银行和信用卡公司,他们是最早开始使用数据的.从数据量来讲,他们是最少的. 第二是CRM数据,即你的客户管理的数据.他们的数据量比财务更一大些,因为这些公司成为你真正客户付钱之前已经产生很多数据,他们做的软件会存储下来,帮助这些公司做更好运营,比如SAP,Oracle等等. 第三是互联网时代,它会记录很多用户