由Hadoop引发的几点思考

问题描述

Hadoop是大家广泛接受的主流体系结构。其设计理念从硬件层面有两个重要的哲学理念:1)ShareNothing–即每个硬件节点的完全独立,CPU/内存/本地盘完全私有,以追求每个节点效率的最大化。2)DataExchangethroughdistributedfilesystem–数据的共享通过分布式文件系统来实现间接的远程访问(一个节点需要访问远程数据块要通过DataNode代理实现)。这个体系工作得不错。最大的优点是“Scalability”几乎可扩展到无穷大。但在论坛上少有人提到Hadoop之外的大数据分析的架构---是否这是大数据分析的唯一架构选择?无限的scalability是否是数据分析的最重要或唯一目标?首先要问的是:你的大数据真的很大吗?真的需要几万台装满硬盘的服务器才能装得下?其次要问的是:你的大数据是否需要多次迭代分析逐步优化,每次迭代数据量是否在大大地精简?再次要问的是:你的大数据是否有实时性?处理节点之间要分析的数据是否很少量,还是要大量地进行交换?抛砖引玉,欢迎各位大拿一块儿来聊聊。

解决方案

解决方案二:
嗯,大数据的确在分析领域有很大优势~
解决方案三:
Microsoft,Yahoo的统计数据表明,他们的Hadoop机群平均的输入数据只有14GB。Facebook公布的数据是90%的Hadoop任务在100GB以下。很多大数据分析的任务,数据在单个服务器内存中就能放下。要是用上单个机架内全部服务器的内存,恐怕能覆盖决大多数的应用了。因此,InMemory的大数据分析平台成为了新的热点哦。如UCBerkeley的Spark系统就是为这类数据分析优化的。
解决方案四:
同意楼主的观点,大数据分析有着巨大的价值,这一点毋庸置疑。但是现在移动互联网时代,各种应用场景,新的业务模式也是层出不穷。所以所需要的分析架构也很难做到一种通吃,所以,现在适合实时分析和迭代的Spark很火。
解决方案五:
说说我的理解吧,还是比较浅显的,一起讨论。我认为Hadoop最大价值就是提供一个高可扩展性的分布式文件存储系统。当数据达到PB级别的时候,要想性能可用的话不做存储结构的设计几乎是不可能的,如果你不用Hadoop的或类似的解决方案你就必须自己设计这样一个存储结构,这可能要花费你大量时间,而你的经验和知识也限制了是否真的能成功设计这样的一个存储结构,就想可以用现有关系型数据库存储但你也可以自己在设计一个数据库为你自己的项目用,自己设计一个分布储存架构难度不会比自己在设计一个关系型数据库简单多少。也想和楼主讨论一下你提的几个问题:首先要问的是:你的大数据真的很大吗?真的需要几万台装满硬盘的服务器才能装得下?我想我们还要考虑一个问题,装满硬盘几台或十几台Hadoop服务器应该比实现同样性能传统架构设备便宜的多,所以也许几台或十几台规模的应用可能就值得用Hadoop,不用几万台装满硬盘的服务器那么夸张。但也要考虑到另一个成本就是开发成本,开发基于Hadoop的应用还是比较困难的。其次要问的是:你的大数据是否需要多次迭代分析逐步优化,每次迭代数据量是否在大大地精简?mapreduce效率确实是个问题,我想还是可以通过合理设计存储结构和算法来改善它。再次要问的是:你的大数据是否有实时性?数据实时确实也是问题,所以在一个大数据系统中可能应该包含关系型数据库,hadoop等,各司其职相互配合。处理节点之间要分析的数据是否很少量,还是要大量地进行交换?这个也可以通过合理设计减少这种情况的发生,甚至可以不断的调整数据结构和算法改善类似的问题。
解决方案六:
我觉得归根结底带来的是机架硬件架构的变迁和更新,计算存储解耦合~~~
解决方案七:
我觉得一种架构,必须要考虑很多方面。或许楼主问的,他们都考虑过,所以才出了hadoop
解决方案八:
Hadoop这样一个架构,虽然现在很成功,但是确实有很多改进的地方的。也不可能考虑全面。现在她还在发展中,比如前阵子HadoopV2出来了,加了很多灵活性。同时,像Spark这些算法架构也在往Hadoop基础框架上去集成。所以,发展/改进这个主旋律还是少不了的,我们在用她的同时,思考思考怎么改进,还是很有意思的。
解决方案九:
Hadoop作为一种主流的软件构架,确实有其合理性和现实性的考虑。CMIC您的见解就包含了很多现实性的考虑,试着总结一下:1)利用Hadoop现成的存储构架(HDFS)或其它成熟的数据库或文件系统构架对于开发应用的人而言是一种现实的选择。2)即使在小规模机群上,Hadoop也提供了可行的并行处理构架,而且比传统高性能服务器等单机设备要便宜。3)Mapreduce的效率、迭代引入的数据交换、以及实时性等Hadoop可能存在的性能效率的问题,可以通过数据结构和数据摆放调整等软件优化手段来弥补,以达到实用的目的。感觉CMIC是位经验丰富的软件架构师。从软件架构师的视角来看,硬件是否是神圣而无法变更的呢?楼主对此很感兴趣。是否在软件工程师的世界里,OS/平台都是既定的,而应用/算法则是可变的,因此在出现问题时,会直接跳过硬件/OS/Hadoop,而着手于其上运行的应用,以求性能改善?如果跳出这个框架来思考,会不会有全然不同的答案?
解决方案十:
引用6楼coolbamboo2008的回复:

我觉得一种架构,必须要考虑很多方面。或许楼主问的,他们都考虑过,所以才出了hadoop

恕难苟同。是否“存在的就一定是合理的”?不可否认,Hadoop在其诞生的时期以及过去的几年发展中,提供或者说充分实现了它设计的价值,但在当前飞速变化的大环境下,它的弊病也日益突出。楼主比较赞同cdb81关于处理模式不断更新演进的观点。cdb81提到的目前变得很火的Spark就是一例。

时间: 2024-08-30 11:12:39

由Hadoop引发的几点思考的相关文章

Servlet网上售票问题引发线程安全问题的思考_JSP编程

先分享相关代码: package com.lc.servlet; import java.io.IOException; import java.io.PrintWriter; import javax.servlet.ServletException; import javax.servlet.http.HttpServlet; import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServlet

GitHub 更新服务条款,引发了怎样的思考?

GitHub 在 2 月 28 日更新了服务条款,其中一些条款引发了争议,被认为与众多开源和自由软件许可证相抵触.GitHub 随后澄清服务条款只是一种默认协议,并不是取代用户源代码原来采用的许可证. 这件事引发的一个思考是 GitHub 已经变得过于庞大了,它在短短几年时间内成为了世界上最大的源代码托管平台,可能会以前所未有的方式成为自由软件世界的一个单点故障. GitHub 的下线和政策变更不只是对自由软件世界产生巨大的影响,而且还会影响到日常运作依赖于 GitHub 服务的更庞大群体.开发

由惠普引发的IT产品服务思考

花多少钱办多少事,一个看似再平常不过的道理,对于某些特定环境与商品消费时就会有所改变.前些天一位朋友买了花8万元买了一辆经济型轿车,具体品牌型号不提避免广告嫌疑.对于他来说,倾其所有换来到这辆汽车,期望值非常高,而且在言谈话语中他希望自己这辆小车的动力.安全.品质能和20万以上的中高级车相媲美,同时他更希望这辆车质量稳定能够至少开上十年.买便宜产品,期望值更高,这种消费心理确实具有很高的代表性. 再说笔记本电脑,对于那些花费数月收入购买一台中低端笔记本的用户来说,对产品的期望值往往比购买高端机型

盛世富邦引发PE乱象思考 高调炫贫荒唐真相

3月30日,中国国际广播电台<环球财经大视野>邀请国家发改委城市和小城镇中心研究员易鹏,以"高调炫贫"这一荒唐之举引发的种种思考为话题,进行了现场探讨.同时邀请北大纵横管理咨询集团合伙人崔凯,对"盛世富邦集资骗局"背后的PE乱象发表了自己的观点. 崔凯首先形象地解释了"PE"."VC"以及"天使投资人"之间的区别.他把企业成长比作植物的生长,买种子的阶段称为"天使投资",企业

通过一个现实案例引发的网络营销思考

中介交易 SEO诊断 淘宝客 云主机 技术大厅 最近在我们住的不远的一个地方,有个餐馆名字叫做蛇庄,这个名字起的很诧异.总之给我感觉很怕的感觉.因为从古到今流行古话就是"一朝被蛇咬十年怕井绳".所以每天上下班都会经过这个店铺.但是看到的店铺效果也不尽如意.难道是店铺定位有问题,真是这样很多人在餐饮方面很难接受新鲜事物?我们不得不去引发一个思考. 但是这两天我在路过时候,发现这个餐馆进行在改门头,他在他们的门头原来基础上上加上了雪花啤酒的概念.开始没有理解.具体的再去一了解.一般饮食行业

360搜索流量数据引发争议后的思考

大家好,我是朱卫坤,一个互联网人士,写文章的目的就是客观写作,大家不要带人身攻击哈,感谢!还是写关于360搜索引擎的流量,互联网人士各种言论铺天盖地,广大站长最不淡定了,纷纷拿起榔头钉耙,向百度砸过去,下面就记录一下自己看到的内容,并写出自己的观点,虽然明显可以看出对于这样的话题太多,如果可以用一些比较实际的数据列出来,写出自己的观点,抒发自己对互联网最新动态的捕抓也是不错的. 一则来自月光博客的微博评论在微博上炸开了锅,如图:   对于这样的报道,众说纷纭,而我们都是成年人,而且都在互联网上,

一次关于使用status作为变量引发的bug及思考

这个bug出现在一年前,当时自己大学还没毕业,刚刚进入一家公司实习.那个时候还没有用seajs或者requirejs那样的模块化管理的库,也没有用一个自执行的函数将要执行的代码包裹起来,于是bug就在这样的一个场景下诞生了.当时自己定位了比较久,也不知道status是window下的一个属性,所以请了高手帮忙定位,高手也是定位了半天才定位出来,只是凑巧将status换了一个名字就正常了,后来我问高手原因,他当时也答不出来,后来就一直没管它了,也忘记了.就在前几天,群里有人在讨论一些bug以及要注

基础设施服务公司遭攻击引发新网络安全防御思考

近年来,能源公司与建筑管理系统接连遭遇各种http://www.aliyun.com/zixun/aggregation/10370.html">网络攻击,人们因此对改善网络安全防御系统提出了要求. 安全专家表示,去年,随着诸多关键实业公司与制造业公司接连遭遇网络攻击,人们逐渐认识到,网络安全问题的性质正在发生改变. 今年1月,黑客成功攻击了一些专业网站.黑客成功将恶意程序移植到这些专业网站上,感染网站访问者.这种攻击模式被称作"水坑攻击".工业控制系统网络应急响应小组

向左走向右走陌陌上市引发的“生熟”思考

北京时间12月11日晚, 国内知名移动社交平台陌陌在美国 纳斯达克交易所挂牌上市.陌陌联合创始人.首席执行官唐岩表示,陌陌用三年从初创走向了上市,其中一个很重要的原因在于产品定位比较正确.业内人士分析称,陌陌能够在社交领域老大--微信的指缝中得以生存壮大,最后上市,缘于陌陌立足陌生社交服务,弥补了微信功能的 空缺.对此,业内也有不同声音,认为陌陌与QQ.微信一样,依靠陌生社交取得成功后,就开始"去陌生化",向熟人社交挺近."别看市面上打着陌生 人交友的社交软件闹得欢,其实都藏