遭遇云计算 大数据架构对系统提出挑战

大数据将挑战企业的存储架构及数据中心基础设施等,也会引发云计算、数据仓库、数据挖掘、商业智能等应用的连锁反应。2011年企业会将更多的多 TB(1TB=1000GB)数据集用于商务智能和商务分析;到2020年,全球数据使用量预计暴增44倍,达到35.2ZB(1ZB=10亿TB)。

大数据面临的挑战

对于海量的数据信息,如何对这些数据进行复杂的应用成了现今数据仓库、商业智能和数据分析技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规 律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。传统的数据库中的数据结构性很强,即其中 的数据为完全结构化的数据,而目前数据最大特点就是半结构化,因此此类数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。

谈到传统数据仓库的时候,大家不免就会买存储设备,选服务器,不管是IBMPower或者是Oracle架构的,这些其实都是在传统时代非常有名的数据库品牌,把它构建在一起,构成数据仓库,微软、COCNOS等都提供解决方案。

对企业业务来说,不光要有高扩展性,而且是动态的需求,能够让设备自由扩充,不用去管数据仓库、应用具体运行在这些机器的哪一台上,这些计算能力的耗费完全是根据业务的伸缩而来的。

传统的架构做这类的项目十年到二十年的时间,它们有一个特点,数据仓库的访问和传统的不同,所谓的不同就是查询特别大,查询的语句特别长、特别复 杂,不像去银行的存提款只是在众多的记录中查询一两条,它符合大数据查询的特征,传统的查询索引作用非常有限。在数据库中涉及多张表的连接,同时还有汇 总、算标准差等复杂的运算。但是相反它的并发请求不是很多,一个企业就是人再多,不会同时超过一千个业务分析员在分析数据。

因此,在数据仓库诞生的第一天,系统一直就有一个瓶颈,要把大查询分解成小任务,这些小任务由并行的服务器来完成,我们强调小的机器要多,而不要大的机器CPU数少。因此,数据仓库天生就是MPP、开放架构的CPU加上并行扩展横向扩展数量。

当大数据遭遇云计算

云计算为什么能盛行呢?在互联网领域应用系统的构建:客户群体是不确定的、系统规模不确定、系统投资不固定、业务应用有很清晰的并行分割特征、数据 仓库系统的构建、数据仓库规模可估算、数据仓库的系统投资与业务分析的价值和回报相关、商业智能应用属于整体应用、Saas模式构建数据仓库系统。

大数据管理,分布式进行文件系统,如Hadoop、Mapreduce数据分割与访问执行;同时SQL支持,以Hive+HADOOP为代表的SQL界面支持,在大数据技术上用云计算构建下一代数据仓库成为热门话题。从系统需求来看,大数据架构对系统提出了新的挑战:

1、集成度更高。一个标准机箱最大限度完成特定任务。

2、配置更合理、速度更快。存储、控制器、I/O通道、内存、CPU、网络均衡设计,针对数据仓库访问最优设计,比传统类似平台高出一个数量级以上。

3、整体能耗更低。同等计算任务,能耗最低。

4、系统更加稳定可靠。能够消除各种单点故障环节,统一一个部件、器件的品质和标准。

5、管理维护费用低。数据藏的常规管理全部集成。

6、可规划和预见的系统扩容、升级路线图。

云计算环境作为大数据处理平台

1.云计算环境中基本计算单元的分化

企业云计算平台上虽然有多个并行计算的CPU,但并没有创造出具有超强数据处理能力的超级CPU,因此云计算平台需要的是有并行运算能力的软件系统。同时,当所有用户的数据全部放在云端时,虽然存储容量可以很方便地扩充,但面对大量用户同时发起的海量数据处理请求,简单的数据处理逻辑已经无法满足需要。

可以看到,国内有相当多的电商企业,用小型机和Oracle扛了好几年,并请了全国最牛的Oracle的专家不停优化他的Oracle和小型机,初期发展可能很快,但是后来由于数据量激增,业务开始受到严重影响,最典型的例子无疑是京东商城前段时间发生的大规模访问请求宕机事件,因此他们开始逐渐放弃了Oracle或者MS-SQL,并逐渐转向MySQL+X86的分布式架构。

目前的基本计算单元常常是普通的X86服务器,它们组成了一个大的云,而未来的云计算单元里有可能有存储单元、计算单元、协调单元,总体的效率会更高。

2、对系统稳定性的需求

在应对大规模访问的时候有一些系统稳定性的追求,来自很多方面,来自网络稳定性、数据库稳定性。对系统而言,需要把握一个大原则,需要消除任何单点故障。不光是网络上单点故障,还有来自你呼叫中心里的单点故障,只要有单点故障一定要消除掉。

因为对于电商行业而言,每一秒都是钱,电子商务业务如果宕机一个小时,损失多少是可以算出来的,电商行业需要非常全面的技术系统监控报警系统。有时候你会发现你如果通过技术系统的监控去推导出你的技术发生问题已经晚了。

(责任编辑:蒙遗善)

时间: 2024-07-28 16:41:22

遭遇云计算 大数据架构对系统提出挑战的相关文章

BDTC PPT集萃(一):BAT、华为、网易等分享的大数据架构

从2008年60人规模的"Hadoop in China"技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验.同时,2014年12月12至14日,第八届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验. 为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT

BDTC PPT集萃(二):Facebook、LinkedIn等分享的大数据架构

从2008年60人规模的"Hadoop in China"技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验.同时,2014年12月12至14日,第八届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验. 为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT

《大数据架构和算法实现之路:电商系统的技术实战》——1.3 算法:朴素贝叶斯和K最近邻

1.3 算法:朴素贝叶斯和K最近邻 1.3.1 朴素贝叶斯 朴素贝叶斯(Naive Bayes)分类是一种实用性很高的分类方法,在理解它之前,我们先来复习一下贝叶斯理论.贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分.贝叶斯决策就是在信息不完整的情况下,对部分未知的状态用主观概率进行估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策.其基本思想具体如下. 1)已知类条件概率密度参数表达式和先验概率. 2)利用贝叶斯公式转换成后验概率. 3)根据后验概率大小进行决

【大数据100分】大数据架构及行业大数据应用(中级教程)

[大数据100分]南大通用CTO武新:大数据架构及行业大数据应用[大数据中级教程] 主讲嘉宾:武新 主持人:中关村大数据产业联盟 副秘书长陈新河 承办:中关村大数据产业联盟 武新,南大通用高级副总裁兼CTO,法国奥尔良大学和法国国家科研中心博士:南大通用GBASE系列数据库产品的总设计师.在著名的甲骨文公司任职12年,是世界顶级的Oracle数据库专家.2010年获得中组部实施的国家"千人计划"荣誉(海外高层次人才引进计划),是国内基础软件行业唯一入选的数据库技术专家.对目前最新兴的列

第八届中国云计算在京召开:云计算大数据加速发展

由中国电子学会主办的第八届中国云计算大会5月18日~20日在北京国家会议中心盛大召开.本次会议由工业和信息化部.中国科学技术协会.北京市人民政府指导,中国云计算技术与产业联盟.中国大数据专家委员会.中国电子学会云计算专家委员会承办,世界工程组织联合会创新专委会(WFEO-CEIT)作为协办单位,ZD至顶网.计世资讯.锦囊专家协办,大会主题为"技术融合,应用创新".工业和信息化部副部长怀进鹏出席会议并讲话,云计算大数据领域的9位院士和200多位专家在全体大会和专题论坛上作报告,三天共有超

后Hadoop时代的大数据架构

背景篇 Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理.适合处理非结构化数据,包括HDFS,MapReduce基本组件. HDFS:提供了一种跨服务器的弹性数据存储系统. MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的输出. Amazon Elastic Map Reduce(EMR): 托

“互联网+”助推云计算大数据落地 安全可控是根本

ZDNet至顶网服务器频道 03月18日 新闻消息:在十二届全国人大三次会议上,李克强总理在政府工作报告中首次提出了"互联网+"行动计划.所谓"互联网+",政府工作报告如此解释:推动移动互联网.云计算.大数据.物联网等与现代制造业结合,促进电子商务.工业互联网和互联网金融健康发展,引导互联网企业拓展国际市场.这是云计算.大数据.物联网等新一代信息技术首次在全国政策性大会议中提上议程,"互联网+"作为生态战略,也是首次上升成为国家的战略,说明在中国

大数据架构面临技术集成的巨大障碍

企业可以利用Hadoop以及所有与它相关的技术设计大数据环境,以满足其特定的需求.但把所有的技术集成在一起并不是一件容易的事. IT团队寻求构建大数据架构时有大量的技术可供选择,他们可以混合搭配各种技术以满足数据处理和分析需求.但是有一个问题存在:把所有需要的技术框架组合到一起是一项艰巨的任务. 在不断扩展的Hadoop生态系统中,选择和部署合适的大数据技术是一个长期反复的过程,周期要以年计.除非公司管理者愿花大量财力和资源来加速推动项目.选择技术的过程中有失误判断是很常见的,一家公司的架构蓝图

富士通大数据架构解决方案闪耀存储峰会

文章讲的是富士通大数据架构解决方案闪耀存储峰会,世界领先的ICT综合服务商富士通(Fujitsu)近日亮相2013(第九届)中国存储峰会.作为目前国内存储界规模最大和历史最长的存储大会,本届存储峰会以"数据造化 智见未来"为主题,包括富士通在内的30多位专家发表演讲,共同探讨大数据时代下的数据价值.透视未来发展的宏伟蓝图.在会上,富士通(中国)信息系统有限公司产品战略事业部总监李帆与现场嘉宾分享了主题为<富士通大数据架构解决方案>的演讲.他指出大数据时代本质:是科技创新的量