阿里封神谈hadoop生态学习之路

引言

当前,越来越多的同学进入大数据行业,有的是底层的技术,有的是工程,有的是算法,有的是业务。每个产品、都需要工程化的实现,以前,工程师都是操练着java/python/c等各种语言操纵中各类的软件,比如jquery,spring、mysql,实现产品的业务逻辑。在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark、hbase、jstorm等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前在负责阿里云的HBase产品。在这,笔者尽可能梳理下,本文是围绕hadoop\hbase的。对于算法、机器学习是另一个范畴,本篇不涉及,不过从事机器学习算法的研发,能力最好在中级之上。

要想成为专家,并未一朝一夕,需要自己在业余时间花费较多的时间,我们一起加油!

初级

开始接触hadoop,最好还是有语言工程等相关的基础。如果工程能力、思维能力比较强,其实学习起来很快的。

  • 自己直接写一些mapreduce、spark相关的代码去解决一些业务问题
  • 熟悉hadoop的基本理论知识
  • 多看看官方的文档
  • 知晓大体的hadoop体系架构,每个角色能解决的问题
  • 最好能体系的看下《Hadoop权威指南》

中级

这个阶段,基本就是想进一步了解hadoop本身的

  • 前提开发能力较强,比如:java能力
  • 熟悉ETL/流失计算/图计算/机器学习各种原理
  • 看一些社区hadoop的代码,出现问题能直接看源码解决
  • 能去优化hadoop的一些性能问题,知晓大体性能的瓶颈点
  • 可以改造内核,或者参与社区开发
  • 有较多的大数据的项目经验,做过复杂项目
  • 可以看下更多的1-2个计算引擎

高级

在这个阶段,一般书籍就没有太多的用处,一般需要看看paper

  • 修改各种引擎的核心代码,这些包括:hadoop/spark/flink/strom/hive/hbase/kafka/等
  • 学习力强,可以迅速看清楚各种框架
  • 有较强的分布式理论知识
  • 能触类旁通,创新出一套新的大数据引擎,比如:spark
  • 能前瞻性预测未来引擎发展方向

建议

  • 最好的学习方式是:动手,动手写code
  • 多参加技术会议,融入hadoop圈子,如:hadoop submit,spark submit,有时候一些城市会有一些交流会
  • 关注Clouderadatabricks、阿里云E_MapReduce 等博客
  • 多关注一些群,可以加笔者的微信(fengshenwukong),笔者拉下
  • 多关注一些圈子内的微博号或者同学,可以从笔者的微博关注里面找(笔者的微博号:阿里封神
  • 关注你关注的软件的邮件列表
  • 多写写博客,分享自己的心得,把知识沉淀下来
  • 多关注社区的发展

推荐的资料

hadoop生态资料太多,google一下一大把,笔者这里列出的都是基本的:
首先推荐《hadoop权威指南》,基本会讲述hadoop生态的各个组件,是不错的书籍。
再次就是各个软件的官方文档,例如:hbasehadoopsparkkafka

Hadoop基础及ETL

主要包括Hadoop Yarn、HDFS、HBase、Hadoop MapReudce、Hive、Spark SQL等

流式实时处理技术

主要包括Jstorm、Spark Streaming

大数据KV、MPP领域

主要包括的是Hbase、Impala

  • 书籍: 《HBase权威指南》

    • HBase全网最佳学习资料汇总
  • 官方文档:Apache Impala

本文章后续会继续更新,欢迎大家关注!

版权声明

笔者微博:阿里封神 欢迎转载,但请保留原文地址

时间: 2024-10-31 22:38:35

阿里封神谈hadoop生态学习之路的相关文章

阿里封神-大数据处理技术漫谈

以前一篇博客,从宏观描述了云梯1当时整体生态,年底了,笔者再梳理下软件栈,主要以开源软件为主,闭源不谈.大数据发展至今,开源软件层出不穷,也去解决了不同的问题,笔者试图去弄清楚这些,分门别类,后面也可以参照下.由于笔者知识面有限,难免会出现一些偏颇,不全,不正确,还请指正.后面也会有很多新的软件出现,一段时间后,软件栈也会变化的. 典型架构 很多的场景都是如上的,有web(包括无线.以前CS的模式.现在的BS模式等).DB.cache.数据分析我就用了Hadoop了(代名词,或者泛指数据仓库了)

E-MapReduce(云Hadoop生态)之最佳实践

引言 当今想提高竞争力,大数据分析是一个很好的途径.每个行当都会有很多企业在做,做精才有出路.从市场.产品本身的优化.后续的服务都需要数据的支持.很多企业数据分析部是其公司灵魂的部门. 本篇是实践篇,主要讲述hadoop的一些处理场景,一些大致的架构,特别是在云上的一些最佳实践.本篇是建立在阿里云E-MapReduce及整个阿里云体系之上的. 本篇描述场景肯定有不全,但力求覆盖最多的场景,如果读者有一些其它好的场景,欢迎直接联系笔者. 这些场景只是一些典型场景的抽象,一般一个业务系统会交叉使用的

专访阿里王峰:Hadoop生态下一代计算引擎-streaming和batch的统一

编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用.在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况.本次InfoQ便采访了阿里搜索离线基础平台团队负责人王峰,和大家一起聊一聊Hadoop. 问:您是2009年开始关注Hadoop生态技术发展,并逐步将其引入阿里电商搜索技术体系.

和封神一起“深挖”Spark

关于分享者 曹龙,花名封神,专注在大数据领域,6年分布式引擎研发经验.先后研发上万台Hadoop.ODPS集群.先后负责阿里YARN.Spark及自主研发内存计算引擎.目前为广大公共云用户提供专业的Hadoop服务,即:E-mapreduce产品. 演讲内容架构 数据处理技术介绍 Spark 介绍 Spark Plus Spark 应用场景 Spark 在云上 Spark 常见的问题 E-MapReduce大数据平台 演讲主要内容 大数据通常自上而下分为大数据产品.数据治理/作业生命周期.作业管

万达正在和阿里腾讯谈合作,将从中选一家

万达集团董事长王健林近日接受媒体采访时透露,万达正在和阿里腾讯谈合作,将从中选一家.他还宣称,"如果在线上有一个很优秀的公司,再有线下资源,万达不要说在中国,在世界上就没有敌手了." 换而言之,万达电商也要在腾讯与阿里之间选择站队,这或许是继王府井转型O2O与腾讯合作后,最大的传统企业与互联网企业的合作,相比王府井,万达集团以商业地产为基础更为多元化. 万达电商雏形已现 2012年初,万达透露出涉足电子商务,随后开出百万年薪高调招人.万达电商采取的是所谓O2O模式,即借助电子商务,将旗

Hadoop家族学习路线图

 前言 使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用-.慢慢地涉及到数据处理的事情,已经离不开hadoop了.Hadoop在大数据领域的成功,更引发了它本身的加速发展.现在Hadoop家族产品,已经达到20个了之多. 有必要对自己的知识做一个整理了,把产品和技术都串起来.不仅能加深印象,更可以对以后的技术方向,技术选型做好基础准备. 本文为"Hadoop家族"开篇,Hadoop家族学习路线图 目录 Hadoop家族产品 Hadoop家族学习路线图 1.

四个层面解析阿里云云市场生态建设之路

本文讲的是四个层面解析阿里云云市场生态建设之路[IT168 云计算]如今,提到云计算,已不陌生.从互联网时代到物联网时代,云计算从最初一个抽象的概念发展至今,已然成为人工智能的催化剂.云计算的利好之处服务于各个行业,正因如此,云生态在过去一年,变得愈加丰富多彩,变得愈加复杂和多变. IT产业链进化核心:云生态建设 过去,无论是互联网巨头BAT,还是传统IT厂商,都强调"渠道"建设.现在,无论是企业还是用户,越来越多的人谈"生态",合作伙伴,甚至是生态伙伴. 这样的转

擎天网络“封神”游戏或涉抄袭“大话西游”

5月29日上午,警方来到广州市擎天柱网络科技有限公司(下称"擎天柱公司")办公地,同其创始人魏剑鸿进行谈话,此后,魏剑鸿被警方带走,魏剑鸿曾经担任网易游戏事业部副总经理. 5月30日上午10点,上午10时整是擎天柱公司正式上班时间,但魏剑鸿未能出现在公司. 擎天柱公司一名高管透露:警方调查可能指向擎天柱公司"封神"系列游戏涉嫌抄袭网易"大话西游"等系列游戏. 该高管表示:擎天柱公司准备聘请律师介入此案. 警方2012年7月曾展开调查但没有下文 广

谈一谈网络编程学习经验

建议大家去看原文:http://cloud.github.com/downloads/chenshuo/documents/LearningNetworkProgramming.pdf 1 谈一谈网络编程学习经验 陈硕 giantchen@gmail.com blog.csdn.net/Solstice weibo.com/giantchen 2012-02-13 本文谈一谈我在学习网络编程方面的一些个人经验."网络编程"这个术语的范围很广,本文指用 Sockets API 开发基于