【Hadoop 10周年】我与Hadoop不得不说的故事

         什么是Hadoop
        今年是2016年,是hadoop十岁的生日,穿越时间和空间,跟她说一声生日快乐,二千零八年一月二十八号,是一个特别的日子,hadoop带着第一声啼哭,来到了这个世界,她的出现从根本上改变了企业存储、处理和分析数据的方式。跟传统系统的区别是,她可以在相同的数据上同时运行不同类型的分析工作。十年的时间,可以让懵懂的毛头小子成长为翩翩少年郎,十年的时间,看似漫长却又短暂,今天的我们很幸运的见证了她从出生到现在,感动与那份技术带给我们惊喜的同时,让我们一起来了解一下她的前世今生,走进她的人生,聆听她的故事……
        她是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行告诉运算和存储。她实现了一个分布式文件系统,简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上,而且她提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序,HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。她有两个好帮手,一个叫HDFS,另一个叫MapReduce,可以这样说他们都是她的左膀右臂,HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

        我们知道,她的名字hadoop其实就代表了她的两个伙伴,她的心腹 就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,她的旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。要想了解她,就必须知道HDFS和MapReduce是什么。HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。通俗说MapReduce是一套从海量·源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce做的事了。简单的说就是,HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。      

                             

       为什么会出现hadoop
       古时候,人们用一头牛拉不动一根圈木的时候,他们不曾想过培育个头更大的牛,同样,我们也不需要尝试更大的计算机,而是应该开发更多的计算系统,格雷斯·霍珀如是说道。格雷斯·霍珀计算机领域的先锋人物之一,这位伟大女性的人生历程和在计算机编程历史中所扮演的重大角色进行了详尽且客观的描述,同时也对计算机编程的发展和其中重要人物的作用进行了细致的叙述。她对计算机领域的贡献不可磨灭。简单的来说,简单的说,就是数据量越来越大了,太大了!我们的大型机负担不了,因此集群就诞生了,自此hadoop应用而生。常说,好的架构不是设计来的,而是演变来的,小编想说的是,hadoop也不是设计来的,她是随着IT技术的发展,演变而来的。

        随着二十一世纪,互联网势如破竹的日新月异,风生水起瞬息万变,一方面用户量激增,另一个方面人们对于数据的渴望,以前领导可能就只要看一个结果或者是某方面的报告就ok了,但现在大家都想更贴近用户、机器,同时其他的譬如交通、电信行业,产生的富媒体数据更是丰富多彩,数据规模也是不断增长。我们希望能从这些用户行为、机器日志中看到更多能够优化系统、优化用户体验,做更多的用户研究。所以更多的数据带来更多的存储问题,原来的单机已经不能解决,而多个磁盘的轮询读取性能也是很低,同时磁盘的发展趋势:寻址时间的提高远远慢于传输速率的提高。在这种迫切需要解决对数据处理系统的这种一次写入、多次读取而非像传统RDBMS的持续更新的需求,所以她就应运而生了。总得来说她是为大数据而生。

                          

        生活中的hadoop
        其实看似离我们很遥远的事物,其实离我们都特别的近距离,现在几乎大家每天都上网,大数据的时候,只要我们上网,淘宝购物,浏览新闻,学习新知识等等,那么没有人会比商家更了解你,可能我们自己有时候还没有考虑过自己最喜欢的衣服是什么?是小清新型的还是女神范儿的,但游泳数据的商家已经对你了如指掌了,未来,不管我们的口味有多么的不同凡响,异同寻常,我们都能找到符合自己style的时装,因为我们的历史数据会告诉商家我们属于哪一类人。

         还记得那部火遍大江南北的《纸牌屋》,连王岐山和奥巴马都是纸牌屋的粉丝,《纸牌屋》最大的特点在于,与以往电视剧的制作流程不同,这是一部“网络剧”。简而言之,不仅传播渠道是互联网观看,这部剧从诞生之初就是一部根据“大数据”,即互联网观众欣赏口味来设计的产品。《纸牌屋》的成功在一定程度上得益于大数据,其出品方Netflix称挖掘其用户行为的“大数据”已经很长时间,《纸牌屋》是其数据分析结果的第一次战略运用。通过数据分析,Netflix甚至比观众还要清楚他们的观影喜好。据悉,该网站基于3000万北美用户观看视频时留下的行为数据,推测出一部剧的关键要素可以是凯文·史派西、大卫·芬奇和BBC出品三者的交集,可以获得成功,于是打造了《纸牌屋》。

                         

        hadoop  pk  旧平台
     沿着岁月的脉络,我们从传统数据库数据仓库这边看,一方面吃着现有的蛋糕,另一方面也一直在尝试数据量更大、扩展性更好的解决方案,从share-everything到 share-storage到share-nothing,比如现在的MPP解决方案,也在大数据业务中分了一杯羹。不过数据库基因的解决方案,还是要面临扩展性的问题,我们的经验是大概百节点级别,远远不如hadoop的扩展性。
        hadoop最伟大的地方,严格说是google的伟大,就是在扩展性瓶颈方面的突破了。扩展性一直是所谓大数据(以前叫海量数据)处理的瓶颈,扩展性上去了,有更多机器来干活,那同时能干的活也就多了嘛。以前处理海量数据的思路,是搞一台超级牛的机器,比如高性能计算机,比如大型机、小型机;后来一台机 器怎么也不够用了,就搞个几台连起来一起用,比如网格,比如分布式数据库数据仓库,不过这扩展性也就是几台十几台级别的,再多也无法提高了;而 hadoop,放弃磁盘阵列而使用本地硬盘作为存储,使得网络连接方式大大简化,从软件层面来解决很多硬件问题,比如硬盘故障,减少对硬件的依赖,这些保 证了hadoop甩出其他方案几个量级的扩展性能,人类看到了处理大数据的曙光。
       大数据技术理念核心主要分为两个部分:虚拟化技术和类似Hadoop的技术。同样也是两个对立面,虚拟化更注重于将资源打造成一个大型机,而Hadoop恰恰相反,将各种资源池化。非Hadoop平台系统,均属核心的业务系统,比如代表性IOE,下面将分说两种系统的优劣:
  大型机:稳定性、源质性高,IO能力极强,可以管理较多的磁盘及数据资源,CPU数量也占优势。当然这里面,限制在于机器间传输,存储和内核需要共同带宽。机器间的相互传输导致大量磁盘IO,从而造成磁盘瓶颈,同样带宽也很成问题。同时多CPU利用差的问题也暴露无遗,总体来说IO成为整个系统的瓶颈所在。

  Hadoop:化整为零,文件被切开到不同层面,将计算移动到所在数据的节点上,通过节点实现并行化IO,因此需要挂很多层。而Map Reduce任务的数量跟CPU核数捆绑,因此CPU核数越多,Map配置就越快。通过移动计算取代移动数据,以获得更高的IO,这正是大数据存在的意义。

                             

        未来扑面而来,你准备好迎接每一个机遇和挑战了吗
        大数据是一场人人都想抓住的变革机遇。不管是IT巨头还是创业小团队,都想在这个极具变化的变革初期占领一席之地,立名、掘金、抢占话语权。

        正如知名IT评论人谢文所说:“大数据之所以可能成为一个时代,在很多程度上是因为这是一个可以由社会各界广泛参与,八面出击,处处结果的社会运动,而不仅仅是少数专家学者的研究对象”。数据产生于各行各业,这场变革也必将影响到各行各业,因此,机遇也蕴含于各行各业。致力于IT创业的人们紧紧盯着这个市场,洞察着每一个机遇。下一个十年,hadoop又会带给我们怎样的惊喜,让我们一起期待。

                     

     

时间: 2024-09-21 21:31:56

【Hadoop 10周年】我与Hadoop不得不说的故事的相关文章

单机伪分布ganglia 监控hadoop,监控不到hadoop的相关监测指标

问题描述 单机伪分布ganglia 监控hadoop,监控不到hadoop的相关监测指标 就一台计算机,ubuntu 12.04 安装ganglia 是通过apt-get ... . ganglia版本是3.1.7 hadoop是2.4.1,hadoop是单机伪分布式环境下,相关配置配置好后,主要是ip地址,都是127.0.0.1,在监控的web页面上只能监控到cpu,内存,网络等指标,但hadoop 的相关指标(hdfs mapreduce)监测不到.下面是配置文件.麻烦看看是什么原因. gm

高可用Hadoop平台-Hue In Hadoop

1.概述 今天为大家介绍另一款工具--Hue,该工具功能比较丰富,下面是今天为大家分享的内容目录: Hue简述 Hue In Hadoop 截图预览 本文所使用的环境是Apache Hadoop-2.6版本,下面开始今天的内容分享. 2.Hue简述 Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的.通过使用Hue我们可以在浏

Hadoop利用FileSystem API 执行hadoop文件读写操作

因为HDFS不同于一般的文件系统,所以Hadoop提供了强大的FileSystem API来操作HDFS. 核心类是FSDataInputStream和FSDataOutputStream 读操作: 我们用FSDataInputStream来读取HDFS中的指定文件(第一个实验),另外我们还演示了这个类的定位文件位置的能力,然后从指定位置开始读取文件(第二个实验). 代码如下: /* */ package com.charles.hadoop.fs; import java.net.URI; i

Win 10周年更新体验:这十个新变化值得关注

再有几天的时间,微软将迎来Windows 10发布一周年的日子.对于微软和Windows 10用户来说,这一天都是一个忙碌的日子,微软将在当天发布Windows 10的周年更新,带来许多新特性的改进.由于Windows 10即将结束免费升级的策略,因此对于付费用户,微软似乎也投入了更多的诚意,让自己的新系统使用起来更流畅.更顺手.之前对于Windows 10的周年更新测试版我已经试用了一段时间,不妨在正式版到来之前我们一起看看更新后Windows 10有哪些即将迎来的新特性. Windows I

微软证实Windows 10周年更新会重置某些PC设置 请静候补丁

微软已经开始分批向全球用户推送Windows 10周年更新,但是它可能给某些人留下了不太美好的第一印象.在某些情况下,PC设置会在安装期间被自动重设为默认值.微软已在一份声明中证实了此事,并称Windows团队早已知悉相关情况,当前正在制作一个修复,以防设置在安装Windows 10周年更新时被重置. "我们已经意识到了这个可能会重置用户个性化设置的问题,Windows团队正在尽快修复,未来版本将不会如此.如果你已经升级到了1607版本,请打开'设置'应用并重设被改动的个性化设置".

金蝶国际上市10周年市值飙升24倍

金蝶国际董事局主席徐少春在微博中分享上市10周年感受 2月15日晚间消息,金蝶国际今天在香港上市10周年,公司市值由2001年上市时的4亿多港元升至100亿港元,市值规模在10年内飙升24倍. 金蝶国际董事局主席徐少春(微博)在新浪微博上分享了金蝶国际上市10周年的感受.徐少春在微博中表示,"今日是一个特别的日子,是金蝶国际在香港上市十周年!金蝶市值从2001年上市之日4亿多港元升至近日超过100亿,市值规模是2001年上市时的24倍,特别是去年金蝶市值上升了177%.股价反映资本市场对金蝶国际

Windows 10周年更新后分区消失问题怎么办

故障现象: 部分在更新Win10周年更新(RS1,1607版本)后,可能会发现文件资源管理器中分区丢失:在磁盘管理中查看这些分区,会显示为RAW,未分配的磁盘空间. 影响范围: - 适用于所有产品线 - 操作系统更新至Windows 10周年更新 解决方案: 微软后期会通过Windows Update的方式解决.受影响分区上所有的数据仍保留在原处,建议不要试图恢复.不要在这些分区上重新写入数据.也不要将这些分区进行格式化,请耐心等待微软补丁更新. 如果不愿等待微软补丁更新,且安装Win10周年更

Windows 10周年更新:这里有你想知道的大部分内容

Windows 10上线已经接近1年了,即将上线的Windows 10周年更新也即将于8月2日正式上线.目前微软已经面向Fast通道发布了Windows 10 Build 14393版本,并在随后发布了数个累积更新版本号升至14393.5.那么即将到来的Windows 10周年更新都会带来哪些改变哪? 在一周年之际,我们先来看看微软公布的相关细节: ● 系统装机量突破3.5亿台,尽管如此,微软也承认在2018年达到10亿台的目标无法实现了. ● 自发布以来用户使用该系统的时间超过1350亿个小时

Windows 10周年更新会带来哪些改变?你想知道的都在这里

Windows 10上线已经接近1年了,即将上线的Windows 10周年更新也即将于8月2日正式上线.目前微软已经面向Fast通道发布了Windows 10 Build 14393版本,并在随后发布了数个累积更新版本号升至14393.5.那么即将到来的Windows 10周年更新都会带来哪些改变哪? 在一周年之际,我们先来看看微软公布的相关细节: ● 系统装机量突破3.5亿台,尽管如此,微软也承认在2018年达到10亿台的目标无法实现了. ● 自发布以来用户使用该系统的时间超过1350亿个小时