童小军:Hadoop原理、适用场景及核心思想

  童小军,EasyHadop 社区创始人、原暴风影音平台研发经理;国内首位获得美国Cloudera公司Apache Hadoop开发工程师(CCDH)认证考试);中科院、工信部外聘Hadoop专家讲师;RedHadoop 红象云腾 创始人&首席架构师;多次在中国CIO年会、阿里云大会、北大CIO论坛发表大数据演讲,更是Data Wis 大数据Hadoop专家。在本次的大数据沙龙上,第一个发表了演讲。

  Hadoop使用原理

  Hadoop市场正在快速的发展,甚至在银行、电信各方面已
经开始尝试。而童小军则主要从以下3个方面对Hadoop进行了剖析:

  Hadoop原理、工作原理和工作机制

  已证实及有待测试和探索的场景

  实际用例

  童小军集合了EasyHadop社区与RedHadoop(初创公司)的实践,描述了Hadoop、大数据、云计算之间的紧密联系:

  1.  诞生的新数据服务:类似百度、腾讯、阿里云等大公司,通过Hadoop这样平台构建更大的数据平台,收集数据进行分析,并通过其它方式推送出去,也就是数据服务的理念。

  2.  云计算带来竞争力:本质上
其实是一种数据的开放。对比传统数据库,可以更好的进行个体分析,而Hadoop也正是做到了这一点。

  Hadoop与旧平台的对比

  大数据技术理念核心主要分为两个部分:虚拟化技术和类似Hadoop的技术。同样也是两个对立面,虚拟化更
注重于将资源打造成一个大型机,而Hadoop恰恰相反,将各种资源池化。非Hadoop平台系统,均属核心的业务系统,比如代表性IOE,下面将分说两种系统的
优劣:

  大型机:
稳定性、源质性高,IO能力极强,可以管理较多的
磁盘及数据资源,CPU数量也占优势。当然这里面,限制在于机器间传输,存储和内核需要共同带宽。机器间的相互传输导致
大量磁盘IO,从而造成磁盘瓶颈,同样带宽也很成问题。同时多CPU利用差的问题也暴露无遗,总体来说IO成为整个系统的瓶颈所在。

  Hadoop:化整为零,文件被切开到不同层面,将计算移动到所在数据的节点上,通过节点实现并行化IO,因此需要挂很多层。而Map Reduce任务的数量跟CPU核数捆绑,因此CPU核数越多,Map配置就越快。通过移动计算取代移动数据,以获得更高的IO,这正是大数据存在的意义。

  在本节中,童小军以求和等例子入手,更详细剖析了MapReduce的运行机制,同时还讲解了HBase的作用和功能。

  Hadoop适用场景

  童小军认为当下Hadoop的主要应用场景在归档、搜索引擎(老本家)及数据仓库上面,各个机构使用Hadoop不同的组件来实现自己的用例。而在这3个场景之外还有一个比较冷门的场景——流处理,这块源于Hadoop 2.0可结合其他框架的特性,而在将来,Hadoop
肯定会发展到联机数据处理。

  Hadoop核心思想

  Hadoop平台是能够推动企业内部的
数据开放,能够让每个人参与到报表、数据的研发过程。能够实现企业的数据共享,特别是Hadoop队列,资源池,队列,任务调度器的机制,能让整个机型切换成多个资源,而不是以前的数据库,一层层的隔离去使用。最后,童小军还从实际出发,对多个实践进行了讲解。

时间: 2024-10-25 18:17:35

童小军:Hadoop原理、适用场景及核心思想的相关文章

红象云腾公司创始人童小军:创业是一个从0到1的过程

红象云腾(RedHadoop)公司创始人童小军认为创业是一个从0到1的过程.每个创业者都只能靠自己去经历从0到1的转变,才有资格通过和别人合作完成1到100,即使失败我们还能回归到1从新出发.期望通过别人的1来完成的100往往多是空中楼阁.这个1有很多了,比如养活自己.独立的品牌产品等. 从2012年8月出来创业的时候他通过培训来养家,有大量时间来做自己想做的事情又能解决生存问题.坚持了一年左右积累客户和一定的品牌资源."我比较幸运,很多客户都是我之前听过我的Hadoop课程,研发的产品和服务率

童小军:用户是大数据的本质驱动力

文章讲的是童小军:用户是大数据的本质驱动力,"大数据"自诞生之日起,业界对它的概念.技术和应用就存在一定争议.究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都有自己的理解.在2013大数据产品评选活动举办之际,笔者采访了此次担任评委的几位专家学者,看看专家眼中的"大数据"是什么样的? 童小军,EasyHadoop开源社区创立者.Hadoop云计算讲师,专注于Hadoop大数据技术普及和推广工作,致力于让Hadoop大数据应用更简单.曾任暴风影音数据

RedHadoop创始人童小军在北京开讲啦!

问题描述 目前Hadoop的应用越来越广泛,开始被很多企业采用,且Hadoop人才十分稀缺和抢手,待遇也远比Java..Net开发好.为了帮助您快速掌握Hadoop的前沿技术,了解企业应用Hadoop的性能优化,CSDN特别邀请您参加我们精心策划的Hadoop2.0运维管理与集群安装监控管理实训班.届时,在历时一天的实训班上,RedHadoop创始人童小军将为您分享Hadoop企业应用成功案例.讲解Hadoop技术架构知识与小窍门.期待您的加入,名额有限,感兴趣的小伙伴们欲报从速哦!目前,Had

一步一步学习大数据:Hadoop生态系统与场景

Hadoop概要 到底是业务推动了技术的发展,还是技术推动了业务的发展,这个话题放在什么时候都会惹来一些争议. 随着互联网以及物联网的蓬勃发展,我们进入了大数据时代.IDC预测,到2020年,全球会有44ZB的数据量.传统存储和技术架构无法满足需求.在2013年出版的<大数据时代>一书中,定义了大数据的5V特点:Volume(大量).Velocity(高速).Variety(多样).Value(低价值密度).Veracity(真实性). 当我们把时间往回看10年,来到了2003年,这一年Goo

专访阅面科技童志军:FDDB、LFW双夺冠的人脸识别技术

人工智能领域有很多比赛,近年来,随着领域不断升温,在学术界之外,很多技术创业公司也开始参加各种大赛,来证明自己的技术实力.除了火热的各种机器人比赛之外,在深度学习.机器视觉等领域的算法比赛也逐渐被人关注.「人脸识别」作为机器视觉中重要的应用领域,肯定也少不了.说到人脸识别,首先,先介绍两个老牌的比赛: FDDB FDDB的全称为Face Detection Data Set and Benchmark,是由马萨诸塞大学计算机系维护的一套公开数据库,为来自全世界的研究者提供一个标准的人脸检测评测平

《Hadoop大数据分析与挖掘实战》——2.3节Hadoop原理

2.3 Hadoop原理2.3.1 Hadoop HDFS原理 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统.它和现有的分布式文件系统有很多共同点,同时,它和其他的分布式文件系统的区别也是很明显的.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用.HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的.HDFS最开始是作为Apache

网盛生意宝朱小军:创新是电子商务发展永恒主题

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 第二届2010年中国互联网交易投资博览会(网博会)在深圳会展中心举行,会议以"扩大交易·促进投资·加强应用"为主题.中国电子商务研究中心前方特派编辑作现场图文报道: 以下为网盛生意宝服务总监朱小军作主题演讲: 朱小军表示,中国化工网是一个纯粹的行业性的,我们把它叫综合服务平台.到目前已经走过了13个年头了,对中小企业来说,

总结10个Hadoop的应用场景

谁在用Hadoop?这是个问题.在大数据背景下,Apache Hadoop已经逐渐成为 一种标签性,业界对于这一开源分布式技术的了解也在不断加深.但谁才是 Hadoop的最大用户呢?首先想到的当然是它的"发源地",像Google这样的大型 互联网搜索引擎,以及Yahoo专门的广告分析系统.也许你会认为,Hadoop平台发 挥作用的领域是互联网行业,用来改善分析性能并提高扩展性.其实Hadoop的应 用场景远不止这一点,深入挖掘的话你会发现Hadoop能够在许多地方发挥巨大的 作用. 美

联信永益董事长彭小军辞职李超勇成董事候选人

网易财经9月29日讯 联信永益周三晚间发布公告称,公司董事长彭小军因个人原因暂无法履行职责,申请辞去董事和董事长职务.同时,公司董事会提名李超勇增补为公司董事候选人. 此前,彭小军因涉嫌单位行贿罪,被公安机关刑事拘留. 9月3日,联信永益发公告称,公司董事长,总经理彭小军因涉嫌单位行贿罪,已被公安机关刑事拘留.彭小军已经是联信永益上市之后陷落的第二任掌门. 3月19日,联信永益在中小板上市. 3月31日,公司前董事长.总经理陈俭因涉嫌单位行贿罪被刑拘丑闻. 8月2日,公司财务总监.董事会秘书何金