初学hadoop的心路历程

在学习hadoop之前,我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标,有了大目标之后要分几步走,然后每一步不断细分,采用大事化小的方法去学习hadoop。下面开始叙述我是如何初学hadoop的。

Hadoop学习两步走:linux学习、hadoop学习。

在接触hadoop之前我有java基础,为此我的计划是首先学习Linux,然后学习hadoop生态系统,为此学习hadoop第一步计划就是学习linux了,然后linux又可以分为四个步骤走。

linux任务第一个目标就是要熟练操作linux常用命令以及网络配置;

第二个目标就是熟悉用户以及权限管理操作;

第三个目标就是熟悉软件包以及系统命令管理,第四个就是要学习shell编程了。

Linux系统学习完毕之后,紧接着就是第二个计划了学习Hadoop。

Hadoop阶段分两步走。

第一阶段能熟练搭建伪分布式集群以及完全分布式集群,我个人认为先搭建hadoop环境然后再学习hadoop这样效果更好。就如同看别人代码一样,我们先把别人代码能跑起来,然后再分析代码,如果代码都跑不起来,何谈代码分析,所以先让hadoop环境搭建起来,能正常运行wordcount程序,我们才能慢慢分析整个Hadoop生态系统,这样我们能对hadoop有个整体上的认识。

Hadoop第二阶段就是基于第一阶段的基础上,再细分几大阶段:

首先第一阶段整体上认识hadoop生态系统,了解MapReduce分布式计算框架、Yarn集群资源管理和调度平台、hdfs分布式文件系统、hive数据仓库、HBase实时分布式数据库、Flume日志收集工具、sqoop数据库ETL工具、zookeeper分布式协作服务、Mahout数据挖掘库;

第二阶段学习MapReduce,MapReduce作为hadoop核心内容,要先易后难,首先了解Mapper、Reducer、Configuration、job等这些类,熟悉MapReduce流程图,然后写简单的单词统计代码,整体上对MapReduce认识,之后学习MapReduce运行机制,熟练掌握,MapReduce输入格式,MapReduce输出格式,以及MapReduce优化;

第三阶段学习hadoop另一个核心内容HDFS,首先明白什么是hdfs,然后再分析hdfs的优点,然后再了解Hdfs的缺点有哪些,HDFS是如何存储数据的,采用什么样的架构,我们如何实现读取和写入HDFS中的文件,以及了解HDFS副本存放策略,同时熟练掌握HDFS的shell访问和java访问。

第三阶段就是学习hadoop另一个核心内容:Yarn,首先我们要了解Yarn是什么,为什么使用Yarn,Yarn的构架,Yarn的原理。我个人认为,hadoop初学者只要掌握了提供海量数据存储的HDFS,分布式计算的MapReduce,以及集群资源管理和调度平台的yarn,基本上也就掌握了Hadoop最核心的东西,也为以后的hbase、hive学习打下了坚实的基础。

以上是我个人学习大数据的心路历程,希望能够帮到其他人。

本文作者:佚名

来源:51CTO

时间: 2024-09-14 01:31:26

初学hadoop的心路历程的相关文章

一位网站被百度K站150天站长的心路历程

自2012年6月底以来,百度持续更换算法和K站,让无数的站长们陷入了挣扎和难以维继的状态.网站被K导致流量骤减,网民的认可度降低.虽然,有些网站不完全依靠百度带来的流量,但是,一旦网站被K仍然会对网站的整体运营造成影响.在此次K站过程中,用户体验是我们经常会看到的字眼,但究竟何谓用户体验,网络的开放性决定了转发内容的合理性,原创的定位很难辨明,当一个小网站的内容被转发到一个大网站时,大网站的内容很快就会被收录,而且权重高,难道能说这篇文章不是小网站的原创内容吗.我相信:百度目前还没有此种技术来解

团购行业“失败者”褪去浮躁后的心路历程

IT互联网行业对巅峰企业的崇拜不胜枚举,却很少有人关注陷入落寞的昔日枭雄,团购行业有过之无不及.团购兴起近四年,群雄逐鹿的激战早已入册,目前美团.大众点评团的市场份额超七成,行业格局落定.但对于行业未来发展而言,有时候失败案例较成功范本更有养分和警示意义,本周刊2013年年终盘点的首期讲述团购行业"失败者"褪去浮躁后的心路历程. 坚守高管 "外界的评价对我不再重要" 距离上次跟满座网CEO冯晓海交流已两年多,当时正是满座网风光之时,根据独立团购导航网站团800数据显

VS2012+EF6+Mysql配置心路历程

原文:VS2012+EF6+Mysql配置心路历程 为了学习ORM,选择了EntityFramework,经历了三天两夜的煎熬,N多次错误,在群里高手的帮助下,终于成功,现在将我的心路历程记录下来,一是让自己有个记录,另外就是让其它人少走些弯路. 我的开发环境是Win7+VS2012,数据库环境是Ubuntu12.04+MySQL+Mono+Jexus 计划开发完后整个运行在Linux下. 1.下载MySQL Connector/Net 6.8.3 地址:http://dev.mysql.com

一图解说Hadoop的发展历程

文章讲的是一图解说Hadoop的发展历程, ▲ 1. 这一切是如何开始的-Web上庞大的数据! 2. 使用Nutch抓取Web数据 3. 要保存Web上庞大的数据--HDFS应运而生 4. 如何使用这些庞大的数据? 5. 采用Java或任何的流/管道语言构建MapReduce框架用于编码并进行分析 6. 如何获取Web日志,点击流,Apache日志,服务器日志等非结构化数据--fuse,webdav, chukwa, flume, Scribe 7. Hiho和sqoop将数据加载到HDFS中,

华为CDMA终端研发心路历程

过去一年来,随着电信提出新的C网运营思路,华为终端似乎一下子摆脱了留给业界的低端手机制造商的印象.近日,华为C网手机研发总监蒋化冰首次披露了华为C网研发的心路历程. (记者 李传涛)细数中国电信运营C网以来的赢家,华为终端公司名列其中. 而过去一年来,随着电信提出新的C网运营思路,华为终端似乎一下子摆脱了留给业界的低端手机制造商的印象.截至今年6月,华为智能.Touch.导航全系列手机全线上市.而在看似不经意的超越背后,是一支分布在上海.深圳.斯德哥尔摩.班加罗尔等地近千人的C网终端研发团队.

老王的心路历程(一):那个做了五年的产品经理

前言: 老王的五年产品经理心路历程,对拍脑袋式产品决策的反思,及如何建立产品用户体验监控体系. 我从2003年"误入"运维软件行业,并在2010年开始做产品经理,5年来,我始终和优秀的团队在一起,从零开始创造了ITSM.CMDB产品,并得到了很多用户的认可.但不怕大家笑话,这5年中,我内心其实无比的纠结.面对产品的历次迭代,一方面要做出对用户有价值的功能,要说服开发团队去落地:另一方面担心产品过于复杂用户不买账,而对功能的裁剪却不敢轻易动刀.例如产品是站为用户领导设计还是为真正的用户操

草根站长心语:网站由小到大的建站经历和心路历程

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 草根站长心语:网站由小到大的建站经历和心路历程 先简单自我介绍,我是伊凡笑子君,是中国无忧商务网的站长,湖南人.回顾这些年来的技术路程,很多酸甜苦辣,想想也乐在其中. 我的网站经历有点戏剧性,不是正规科班计算机出生,由于自己的爱好,不小心落入了互联网的"陷阱"不可自拔.很多很多的巧合凑合在一起,就成就了天意,许许多多的偶然

NALA创始人独家透露丽子化妆品商城上线前后的心路历程

摘要: 根电商的发展几近停滞,同时,化妆品 B2C 的发展则分外火热,早前聚美优品的IPO的新闻也在坊间传的沸沸扬扬.4月,化妆品 电子商务 公司四金冠店NALA(娜拉)创始人刘勇明正式发声, 根电商的发展几近停滞,同时,化妆品 B2C 的发展则分外火热,早前聚美优品的IPO的新闻也在坊间传的沸沸扬扬.4月,化妆品 电子商务 公司四金冠店-NALA(娜拉)创始人刘勇明正式发声,独家透露丽子化妆品商城(www.lizi.com)上线前后的心路历程. 创办NALA以来,已经有四.五年了.这几年电商从

英特尔中国董事长马宏升的心路历程:中风击不倒硬汉

英特尔中国区董事长 马宏升 &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 导读:3月28日下午,英特尔中国区董事长马宏升(Sean Maloney)接受新浪科技独家专访.他回顾了自己从中风到康复的心路历程,并对一些热门的IT话题进行了回答. 在英特尔中国宽敞的会议室中,英特尔中国区董事长马宏升(Sean Maloney)面带微笑坐在对面,语速缓慢地回答着新浪科技编辑的采访提问. 可能很多人不相信,这位精神饱满的