一图解说Hadoop的发展历程

文章讲的是一图解说Hadoop的发展历程


  1. 这一切是如何开始的—Web上庞大的数据!

  2. 使用Nutch抓取Web数据

  3. 要保存Web上庞大的数据——HDFS应运而生

  4. 如何使用这些庞大的数据?

  5. 采用Java或任何的流/管道语言构建MapReduce框架用于编码并进行分析

  6. 如何获取Web日志,点击流,Apache日志,服务器日志等非结构化数据——fuse,webdav, chukwa, flume, Scribe

  7. Hiho和sqoop将数据加载到HDFS中,关系型数据库也能够加入到Hadoop队伍中

  8. MapReduce编程需要的高级接口——Pig, Hive, Jaql

  9. 具有先进的UI报表功能的BI工具- Intellicus

  10. Map-Reduce处理过程使用的工作流工具及高级语言

  11. 监控、管理hadoop,运行jobs/hive,查看HDFS的高级视图—Hue, karmasphere, eclipse plugin, cacti, ganglia

  12. 支持框架—Avro (进行序列化), Zookeeper (用于协同)

  13. 更多高级接口——Mahout, Elastic map Reduce

  14. 同样可以进行OLTP——Hbase

原文发布时间为:2011-9-26

本文作者:唐蓉 

时间: 2025-01-11 12:28:05

一图解说Hadoop的发展历程的相关文章

Hadoop发展历程以及配套项目

Hadoop发展历程是怎样的呢? Hadoop原本来自于谷歌一款名为MapReduce的编程模型包.谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集.使用该框架的一个典型例子就是在网络数据上运行的搜索算法. Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台.Cloudera是一家企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务. GoGrid是一家云计算基础设施公司,在2012年,该公司与Cloude

一张图清晰追溯数据库的发展历程(1962-2016)

"数据库"起源于20世经90年代.当时美国为了战争的需要,把各种情报收集在一起,存储隐藏在计算机内,叫做Data Base(DB).当人们追溯数据库的发展历程时,会发现新的技术成果总是不断丰富人们的生活,且从来没有减速的趋势! 附录:目前常见数据库技术品牌.服务与架构

云计算架构之Hadoop:从小象变大象的发展历程

由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台.就像30年前SQL(Structured Query Language)出现一样,Hadoop正带来了新一轮的数据革命.如今Hadoop已从初出茅庐的小象变成了行业的巨人,但Hadoop仍需继续完善. 基于Java语言构建的Hadoop框架实际上一种分布式处理大数据平台,其包括软件和众多子项目.在近十年中Hadoop已成为大数据革命的中心.MapReduce 作为Hadoop的核心是一种处理大型及超大型数据集(T

阿里内部分享:大数据业务平台两年发展历程

      这篇文章来自一个公司内部的分享,是自己所服务的业务中数据平台的发展历程,已经讲了有几个月了,最近打算挑几个点拿出来用文章的形式写出来.是自己进入公司以来参与过或者接触过的数据型项目的情况.基本包含了业务数据分析的整个流程.这篇文章纯文字描述,没有任何图呵呵.所以看我需要耐心. 1.最早的数据分析可能就报表 目前很多数据分析后的结果,展示的形式很多,有各种图形以及报表,最早的应该是简单的几条数据,然后搞个web页面,展示一下数据.早期可能数据量也不大,随便搞个数据库,然后SQL搞一下,

《云安全原理与实践》——1.1 云计算的发展历程

1.1 云计算的发展历程 云计算的出现是技术和计算模式不断发展和演变的结果.云计算的基础思想可以追溯到半个世纪以前.1961年,MIT(美国麻省理工学院)的教授John McCarthy提出"计算力"的概念,认为可以将计算资源作为像电力一样的基础设施按需付费使用:1966年,Douglas Parkhill在<计算机工具的挑战>(The Challenge of the Computer Utility)一书中对现今云计算的几乎所有特点,如作为公共设施供应.弹性供应.实时供

《游戏视频主播手册》——第1章 游戏视频直播概述 1.1 游戏视频直播的发展历程

第1章 游戏视频直播概述 在2014年的时候,国内还只有寥寥可数的几家游戏视频直播平台,观众也仅局限于一部分资深的游戏迷和电子竞技比赛的爱好者.出乎很多人预料的是,短短的一年后,游戏视频直播行业便迎来了爆发式的增长,大量的游戏视频直播平台纷纷涌现,其中的一些游戏视频直播平台还有着新浪.腾讯等门户网站的背景,特别是由王思聪担任CEO的熊猫TV,经过各种媒体的反复宣传和热炒后,让很多的非游戏迷也知道了游戏视频直播. 在游戏视频直播行业火爆的背后,自然离不开资本市场的大力推动.很多人不禁要问,资本市场

张志华:机器学习的发展历程及启示

近年来,人工智能的强势崛起,特别是刚刚过去的AlphaGo和韩国九段棋手李世石的人机大战,让我们领略到了人工智能技术的巨大潜力.数据是载体,智能是目标,而机器学习是从数据通往智能的技术途径.因此,机器学习是数据科学的核心,是现代人工智能的本质. 通俗地说,机器学习就是从数据中挖掘出有价值的信息.数据本身是无意识的,它不能自动呈现出有用的信息.怎样才能找出有价值的东西呢?第一步要给数据一个抽象的表示:接着基于表示进行建模:然后估计模型的参数,也就是计算:为了应对大规模的数据所带来的问题,我们还需要

一文读懂!达芬奇手术机器人的发展历程

雷锋网(公众号:雷锋网)按:本文转自剪刀手雷蒙德(师云雷)的知乎专栏. 一.简介 本文描述了达芬奇手术机器人在直观手术公司早期到2009年发展的历程,也做了一个关于远程手术起源的总结,包括独特的技术趋势和临床需求,同时介绍了那些深刻的理解机器人和远程技术并将其应用在医疗的先驱们.我们描述了一些重要的设备影响规则,并且描述了它们是如何影响了医疗设备的发展.不过需要指明的是,这些观点都来自直观手术公司而且描述的不够详细,但是无论如何,我们希望这些观点能够针对技术和医疗的发展和创新提供一些观点,最终来

软件定义的数据中心发展历程PDF下载

回顾过去的 25 年,风起云涌的http://www.aliyun.com/zixun/aggregation/31092.html">技术革新给整个IT行业带来天翻地覆的变化,同时也影响着数据中心的发展方向.从".com" 时期到虚拟化和云计算,再到今天软件定义数据中心的变革,IT数据中心一直在不断演变. 据 NetApp预测,到2017年,IT从业者将 转变为服务提供方,软件定义存储市场的扩展速度必将超过其他任何存储市场.很早之前,在推出Data ONTAP存储操作