大数据时代的宠儿——Hadoop介绍和实践分享

  这篇文章简单介绍了Hadoop相关的技术生态圈,同时共享一份前一阵编写的实践教程,需要者自取。

  在云计算和大数据大行其道的今天,Hadoop及其相关技术起到了非常重要的作用,是这个时代不容忽视的一个技术平台。事实上,由于其开源、低成本和和前所未有的扩展性,Hadoop正成为新一代的数据处理平台。

  Hadoop是基于Java语言构建的一套分布式数据处理框架,从其历史发展角度我们就可以看出,Hadoop一诞生,就具备高贵的血统,发展顺风顺水:

  2004年,Google发表论文,向全世界介绍了MapReduce

  2005年初,为了支持Nutch搜索引擎项目,Nutch的开发者基于Google发布的MapReduce报告,在Nutch上开发了一个可工作的MapReduce应用

  2005年中,所有主要的Nutch算法被移植到MapReduce和NDFS(Nutch Distributed File System )环境来运行

  2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展

  2007年,百度开始使用Hadoop做离线处理,目前差不多80%的Hadoop集群用作日志处理

  2008年,淘宝开始投入研究基于Hadoop的系统–云梯,并将其用于处理电子商务相关数据。云梯1的总容量大概为9.3PB,包含了1100台机器,每天处理约18000道作业,扫描500TB数据

  2008年1月,Hadoop成为Apache顶级项目

  2008年7月,Hadoop打破1TB数据排序基准测试记录。Yahoo的一个Hadoop集群用209秒完成1TB数据的排序,比上一年的纪录保持者保持的297秒快了将近90秒

  ……

  很多人开始接触Hadoop时,都以为这是一个项目,其实Hadoop除了核心的MapReduce和HDFS之外,还包含了众多的子项目,换句话说,Hadoop已经形成了一个丰富的技术生态圈:

  为什么会有这样的技术诞生呢?

  简而言之,随着互联网的飞速发展,大量数据的存储和分析遇到瓶颈,磁盘容量的增长远远大于磁盘读取速度,1TB的磁盘,数据传输速度100MB/s,读一遍2.5H,写数据就别提了,心拔凉拔凉的(当然SSD在生产环境的实际应用,大大缓解了这一窘境)。数据量的增长在互联网应用中体现的非常明显,好的互联网应用动辄就有上千万的用户,无论是数据的容量、压力都与日俱增。另外在企业应用层面,很多大中型企业,信息化进行了十几年,企业内部积累了大量的非结构化数据,各种类型的文件需要存储、备份、分析、展示,苦于没有很好的办法进行数据处理。

  那么如何解决这样的问题,技术牛娃自然有办法,比如磁盘数据的并行读写,数据分块,分布式文件系统,冗余数据,MapReduce算法等等,最后Hadoop等类似的技术应运而生。于是我等草民有福了。

  不是有那么一句话么,大数据胜于好算法,如果数据足够多,可能产生出意想之外的应用,看看现在Facebook、Twitter、微博相关的衍生应用就知道了。另外,无论算法好坏,更多的数据总能带了来更好的推荐效果,这也是显而易见。

  所以,无论云计算和大数据口号喊的多么虚头八脑,但Hadoop都是一门非常务实的技术,无论你身在互联网企业还是传统软件公司,都应该学习和了解这门技术。

  下面是我前一阵内部技术交流写的一份Hadoop简介和实践的教程类KeyNote,希望能有点帮助。

  多说一句,Hadoop的部署提供三种模式,本地模式、伪分布模式和全分布模式,建议大家采用第三种进行实践,这样对系统用法的理解更深入一些。这就需要你至少要两台机器进行集群,比较好的方式是使用虚拟机。Hadoop原生支持 Unix/Linux,你要是想在Windows上玩,还需要装模拟环境cygwin。这时候就体现出Mac用户的优势了,我是采用Mac做 Master,起两台虚拟Linux做Slave,SSD+8G内存,毫无压力。这样做的好处其实在Unix编程思想这部书中也提到过,就是用最小工作环境达到最大的工作范围。

原文连接:http://www.cnblogs.com/chijianqiang/archive/2012/06/25/hadoop-info.html

时间: 2024-09-20 22:52:29

大数据时代的宠儿——Hadoop介绍和实践分享的相关文章

大数据时代下的教育管理信息化建设实践与探索

一.引言 "十二五"期间,高校信息化建设进入了一个"跨越式"发展的阶段.硬件基础设施得到了进一步地提升,数字化业务系统功能不断扩展,极大地提高了教育信息化水平.随着云计算.物联网.移动互联.大数据处理等技术地快速发展,人类已经迈入了大数据时代,硬件系统以及业务软件系统背后产生的原始数据,数据量呈几何级数从TB 级向PB 级乃至ZB 级快速增长,如何发挥这些海量数据的隐藏价值,进一步提升教育教学管理信息化水平,是我们长期关注.思考的问题.在此背景下,研究大数据处理技术

SAP借助HANA应对大数据时代的实时分析

本文讲的是SAP借助HANA应对大数据时代的实时分析,随着企业业务的扩大,信息化的深入,能否快速处理海量数据并有效进行实时分析,将决定企业是否可以迅速应对市场行情变化.做出决策,从而占得发展先机.企业需要实时洞察业务运营状态,以便迅速应对不断变化的市场形势.据研究机构预测,在未来2-5年中,45%的企业将投资于"大数据",以确保在竞争日渐激烈的商业环境中,即时访问和分析所有运营数据的能力. SAP数据库及技术平台市场经理金江带来基于SAP HANA的实时分析应用在线研讨会,并进行了主题

赵国栋:大数据时代经济发展转型之道

文章讲的是赵国栋:大数据时代经济发展转型之道,2015年7月19日,以"开源大数据技术的生态与应用"为主题的"第四届中国大数据应用论坛"在北京大学隆重举办.本次论坛由北京大学信息化与信息管理研究中心和中国新一代IT产业推进联盟主办,北京大学CIO班教务办公室和北达软协办,CIO时代网承办.活动当天来自业界的专家领导.大数据专家.技术大咖.知名企业CIO.知名媒体等近200位嘉宾参与了此次盛会.本届论坛的主题聚焦开源大数据技术的生态与应用,嘉宾们分别从不同的侧面揭示了

大数据时代继续教育深化发展的机遇与挑战分析

美国人舍恩伯格曾在<大数据时代>中提到,2013年将是大数据时代元年,意味着信息科学技术的发展开始步入新的发展时代.继续教育作为终身教育中的一个重要组成部分,是建立在初始教育基础上的职后教育,已经被越来越多的人所重视.在大数据时代背景下,继续教育如何抓住机遇.迎接挑战,已经成为广大继续教育研究者关注的焦点. 一.大数据时代继续教育深化发展的重要性 1.大数据界定维度 当前,关于大数据的界定主要有三种,即分别从数据体量方面.复杂性方面.价值方面对大数据进行界定. 在数据体量方面的界定最早由麦肯锡

NoSQL领衔大数据时代的新技术

本文讲的是NoSQL领衔大数据时代的新技术,大数据应用到数据集,其大小超出了常用软件工具所能捕捉.管理和在可承受的时间内处理数据的能力.Big Data的规模在不断变化,单一数据集的规模从几十个TB涨到多个PB. IDC估计到2011年数据约达到1.8ZB. ZB有多大?答案是10亿个TB.目前世界人口有7亿--也就是说,如果给每个人250G硬盘--存储空间仍然是不够用的. 这次的数据洪流有诸多来源: 1. 纽约证券交易所每天产生1TB的新交易数据; 2. Facebook主机存储100亿张照片

茅明睿:大数据时代的城市规划【大数据100分】

我是一名非典型规划师,我很少做具体的规划设计项目,在北京规划院工作近15年,入行之初遇到了数字城市建设大潮,参与了数字北京的先发工程--数字绿化带,群里的@王国良的武大吉奥公司就是当年主要的合作伙伴. 2000-2010年从事的工作都围绕以地理信息系统.遥感.三维仿真.数据建库为核心的数字规划技术体系的构建,为北京的规划工作建立数据基础和GIS应用基础.2010年开始,基于10年的基础积累,我们开始把视线放到数据挖掘,城市定量研究或者说城市计算上来. 群里都是高大上的技术大牛.上市公司老总.参与

信息过载的大数据时代,大数据推荐系统如何搭建,趋势何方

同比增长随着大数据时代的来临,网络中的信息量呈现指数式增长,随之带来了信息过载问题.推荐系统是解决信息过载最有效的方式之一,大数据推荐系统已经逐渐成为信息领域的研究热点.介绍了推荐系统的产生及其在大数据时代的发展现状.推荐系统的领域需求和系统架构.大数据环境下推荐系统的挑战及其关键技术.开源的大数据推荐软件.大数据推荐系统研究面临的问题,最后探讨了大数据推荐系统的未来发展趋势. 1 推荐系统与网络大数据 随着科技与信息技术的迅猛发展,社会进入了一个全新的高度信息化的时代,互联网无处不在,影响了人

大数据时代结构化存储云HBase技术架构及最佳实践

在10年,阿里研究HBase,是为了解决阿里容量及并发的实际问题,按照数据库要求,阿里深入HBase技术,并致力于保障稳定性和性能,目前已经有10000台规模,数百个集群,大约1亿的QPS,服务整个集团的业务.17年,把这部分能力也开放给公有云客户.本文中,阿里云高级专家封神带来了主题演讲<大数据时代结构化存储云HBase技术架构及最佳实践>,介绍HBase的应用选择.实战案例.技术平台解读以及后续的规划. 为什么应用HBase 一般而言,传统关系型数据库面临着成本.容量.QPS.分析等多方面

全民大数据时代已来 阿里数加平台详解

文章讲的是全民大数据时代已来 阿里数加平台详解,业界流行一种说法,云计算与大数据就是一枚硬币的两面,相生相惜,不可分割.在当下互联网时代,数据的价值越来越受到社会的认可,并在今天,已然成为一种普惠资源,像水.电.能源一样支持社会发展.今天,2016年的阿里云栖大会首站在上海拉开帷幕,作为本场大会的重磅新闻,阿里云全球首发了可以提供一站式大数据处理能力的平台--"数加",并全新亮相了20款新产品,通过阿里云开放出来,让"普惠大数据"成为可能. DT时代 如何让数据从成