大数据环境下Hadoop基础架构有多重要?

  Hadoop和大数据在同一时段开始流行起来,因而成了同义词。但是,二者并不是一回事儿。Hadoop是在集成处理器集群上实施的一种并行程序设计模式,主要用于数据密集型">分布式应用。Hadoop的作用就在于此。早在对大数据的热衷之前,Hadoop就已经存在。但后来Hadoop的意义变了,被当作一种结构用以建立大数据基础架构。

Hadoop以谷歌的MapReduce算法为基础,该算法是在集群中分配应用的一种方法。谷歌的文件系统、运行系统、MapReduce应用以及分布式文件系统(HDFS)几乎都以Java为基础,从而引发了一系列问题。Hadoop也需要通过节点间的故障转移来提供弹性。在众多集群中,当一个节点失效了,应该能及时进行故障处理并转移到下一个集群中去。

  在以后,我并不确定有了Hadoop就可以高枕无忧了。事实上关于Hadoop已有了普遍的共识:为企业所用还需要Hadoop基础架构的许多方面起作用才行。首先,Hadoop的核心是NameNodes,储存了与Hadoop集群相关的元数据(集群中的每台设备、每台设备的容量、设备的用途及其能承受的工作负载量)。这类信息并非随处可复制,而只存在于一个地方,因而成了Hadoop基础架构中的单点故障。如果Hadoop集群上正进行着重要的程序处理的话,那一定要解决这类信息。其次是JobTracker。JobTracker是管理MapReduce任务和为不同服务器安排工作负载的这样一个组成部分,换种说法,JobTracker更接近以专门方法分析的数据。需要强调的是,JobTracker也是一个单点故障,并且只存在于急群众的一台服务器上。这些也只是有关当下的Hadoop架构最明显的问题。

  Hadoop技术本身并不简单。如果打算部署Hadoop,需要足够的程序。这些程序得能够胜任工具箱里单一程序无法做到的各种事情、得知道Pig是Pig Latin的缩写、与Hadoop运行环境息息相关。当然,这些程序也得知道Java、JavaScript的目标符号语言Jaql。现如今找到能胜任PHP的程序已经不是什么难事儿了,只需找一些跨度极大的组合即可。

  因此首先是会有一些单点故障。其次,Hadoop需要一些在技术市场上没有的专项技能。再次,会产生性能问题。每个已部署Hadoop的公司都已经有了Hadoop操作方面的性能问题,因而关于其的大数据分析会一直存在。虽然一些问题与糟糕的写入应用代码有关,但更多的是与其架构本身有关。很多公司在额外的服务器集群、直连存储和额外的软件工具上下了很大功夫,都只为改善Hadoop基础架构的速度和进给量。

  当然,基础架构的管理也让人头疼。一些人试图以ZooKeeper技术来处理Hadoop基础架构管理,而很多厂商则力图以他们提供的定制产品来处理。问题是目前还是没有一个很好的Hadoop管理范式,似乎也没什么指望。

  前不久,福布斯的一篇文章表达了我要分享的另一个重要的关注点:Hadoop等同于承担大数据项目的基础架构。现在,商人们并不明白这一过程,也不介意如何处理大数据。他们只是想要业务利润,要它快一点儿。文章的作者正确地观察到Hadoop也许非常适合处理规模数据(其文章观点所在),但绝对算不上迅速而专业的分析或实时分析学。因此,该文章也不能用于业务处理,只是起到了其下的某些价值作用,并且只是掌控数据的一种方式。

  那指向了问题的核心,最终的真正问题是:我们将大数据用于何处?很多人没有认识到这一问题,除了市场上那些想要使用大数据的商家们,他们的目的是使其产品和服务面向特定客户群体时能更为专业化。

时间: 2024-09-20 00:29:34

大数据环境下Hadoop基础架构有多重要?的相关文章

大数据环境下的网络安全挑战分析

文章讲的是大数据环境下的网络安全挑战分析, 大数据架构和平台算是新事物,而且还在以一种非凡的速度不断发展着.商业和开源的开发团队几乎每月都在发布其平台的新功能.当今的大数据集群将会与将来我们看到的数据集群有极大不同.适应这种新困难的安全工具也将发生变化.在采用大数据的生命周期中,业界仍处于早期阶段,但公司越早开始应对大数据的安全问题,任务就越容易.如果安全成为大数据集群发展过程中的一种重要需求,集群就不容易被黑客破坏.此外,公司也能够避免把不成熟的安全功能放在关键的生产环境中. “大数据”一词常

大数据环境下交通电子警察的发展策略

道路交通违法问题是一种客观存在,它与人们日常生活息息相关,是广泛存在的社会现象.道路交通违法问题与城市的经济发展.社会文化.政策环境.管理水平.基础设施和交通参与者素质等有着客观必然的联系,通过分析研究可以更深入地认识该问题的本质,把握其规律. 随着大数据时代的来临,通过资料的收集.整理.分析.统计等方法,准确及时地掌握交通违法系统中各种动态.静态信息,提取交通违法行为在时间.空间.违法类型上的分布特征,可以从多个维度对交通违法数据进行分析,有助于探索出更加科学有效的交通违法治理科学方法,为非现

大数据环境下的社科文献情报研究

信息技术正飞速发展,互联网已被普及利用,各种终端设备记录了人类社会复杂频繁的信息行为,从而产生了惊人的数据量.在大数据时代,数据分析被提升到了前所未有的高度.这无疑会给社会科学文献情报研究带来巨大的挑战,同时也使它迎来了重要的发展契机.本文对大数据分析和社会科学文献情报研究的关系进行对比研究,同时对大数据环境下社会科学文献情报研究的发展趋势进行展望. 大数据分析(Big Data Analytics,BDA)是指对大数据进行分析,从中找出可以帮助决策的隐藏模式.未知的相关关系以及其他有用信息的过

XFS:大数据环境下Linux文件系统的未来

本文讲的是XFS:大数据环境下Linux文件系统的未来,Linux有好多种件系统,但往往最受关注的是其中两种:ext4和btrfs.XFS开发者Dave Chinner近日声称,他认为更多的用户应当考虑XFS.他谈到了为了解决XFS中最严重的可扩展性问题所做的工作,还谈到了他认为将来的发展走向.如果他说的一点都没错,接下来几年我们在XFS方面有望看到更多的动静. XFS经常被认为是适合拥有海量数据的用户的文件系统.Dave表示,XFS非常适合扮演这个角色;它对许多工作负载而言向来表现不俗.以前往

大数据环境下金数据们的轻态数据服务还有机会

大数据是近几年IT业界中非常火热的一个词汇,由于当前主流的一些软件工具并不能满足人们对于巨量数据的挖掘.收集.整理.分析的需求的缘故,国内外都出现了不少根据这个痛点而进行突破的大数据服务企业. 当IT数据领域主流的发展目标都致力在大数据服务上的时候,那些针对中小团队甚至个人的数据服务是否又还是拥有较大的市场继续挖掘呢? 国庆放假期间,偶然间在微信朋友圈中打开了一位微信好友分享过来的问卷调查链接.问卷调查的内容没有太多复杂的选项,很多需要你选择的地方都是一个相对比较广泛领域中少数的几个选择.虽然我

畅想大数据环境下之个人信息的共享主义社会

在人类社会发展的过程中,"共产主义"一直是社会人憧憬的明天,且不论能否实现,其美好程度令人毋庸置疑.首先,那是一个高度发展的社会存在,充裕的物质财富可以满足所有人的需求,基于此的按需分配消灭了人与人之间的倾轧与掠夺:其次,那是一个高度文明的社会存在,社会成员具有高度的共产主义觉悟和道德品质,由此进行协作成长消灭了阶级冲突及所导致的社会矛盾:最后,那还是一个高度大同的社会存在,让以区域利益为核心的国家不复存在. 真正的共产主义,虽然还遥不可及,但一直是促动人类社会发展的一个美好愿景.遥望

大数据环境下的多维分析技术

之前我们有一篇文章< 一文读懂多维分析技术(OLAP)的进化过程 >为大家介绍了多维分析技术(即联机分析处理(On-Line Analytical Processing),简称OLAP)的前世今生及发展方向.正是由于多维分析技术在业务分析系统的核心功能中的不可替代性,随着商业智能系统的深入应用,分析系统的数据量呈指数级增长,原有依赖硬盘IO处理性能(包括传统数据库.多维立方体文件)的多维分析技术遭遇到性能瓶颈.与此同时,随着服务器内存价格的下降,一种新的基于内存的OLAP技术架构出现了.这种新

大数据环境下中国网络剧商业模式新特征

摘要:近年来,网络剧作为传统媒体和新媒体融合发展的产物,在市场及政策的双重支持与驱动下,逐渐成为"互联网+"大潮中的佼佼者.依托互联网平台,网络剧发挥其投资少.周期短.见效快.效益高等特点,商业模式不断发展.优化.本文对大数据环境下中国网络剧商业模式新特征进行研究,为网络剧产业的未来发展提供参考. 一.网络剧概述 (一)概念 在中国,网络剧的概念最早见于1999年上海戏剧学院的研究生论文<"网剧"--网络与戏剧的联合>①.文中提到,网络剧是"通

机器智能加速器:大数据环境下知识工程的机遇和挑战 | 清华李涓子教授

李涓子,清华大学计算机科学与技术系教授,博士生导师.清华-青岛数据科学研究院科技大数据研究中心主任.中国中文信息学会语言与知识计算专委会主任.中国计算机学会术语委员会执行委员.研究兴趣是语义 Web,新闻挖掘与跨语言知识图谱构建.多篇论文在重要国际会议(WWW.IJCAI.SIGIR.SIGKDD)和学术期刊(TKDE.TKDD)上发表.主持多项国家级.部委级和国际合作项目研究,包括国家自然科学基金重点项目.欧盟第七合作框架.新华社项目等.获得 2013 年人工智能学会科技进步一等奖,2013年