大数据管理系统:浅析并行数据库优缺点

文章讲的是大数据管理系统:浅析并行数据库优缺点,并行数据库是指那些在无共享的体系结构中进行数据操作的数据库系统。这些系统大部分采用了关系数据模型并且支持SQL语句查询,但为了能够并行执行SQL的查询操作,系统中采用了两个关键技术:关系表的水平划分和SQL查询的分区执行。

  水平划分的主要思想就是根据某种策略将关系表中的元组分布到集群中的不同节点上,这些节点上的表结构是一样的,这样就可以对元组并行处理。现有的分区策略有哈希分区、范围分区、循环分区等。例如,哈希分区策略是将表T中的元组分布到n个节点上,可以使用统一的哈希算法对元组中的某个或某几个属性进行哈希,如hash(T.attribute1) mod n,然后根据哈希值将元组放置到不同的节点上。

  在分区存储的表中处理SQL查询需要使用基于分区的执行策略,如获取表T中某一数值范围内的元组,系统首先为整个表T生成总的执行计划P,然后将P拆分成n个子计划{P1,…,Pn},子计划Pi在节点ni上独立执行,最后每个节点将生成的中间结果发送到某一选定的节点上,该节点对中间结果进行聚集产生最终的结果。

  并行数据库系统的目标是高性能和高可用性,通过多个节点并行执行数据库任务,提高整个数据库系统的性能和可用性。最近一些年不断涌现一些提高系统性能的新技术,如索引、压缩、实体化视图、结果缓存、I/O共享等,这些技术都比较成熟且经得起时间的考验。与一些早期的系统如Teradata必须部署在专有硬件上不同,最近开发的系统如Aster、Vertica等可以部署在普通的商业机器上,这些数据库系统可以称得上准云系统。

  并行数据库系统的主要缺点就是没有较好的弹性,而这种特性对中小型企业和初创企业是有利的。人们在对并行数据库进行设计和优化的时候认为集群中节点的数量是固定的,若需要对集群进行扩展和收缩,则必须为数据转移过程制订周全的计划。这种数据转移的代价是昂贵的,并且会导致系统在某段时间内不可访问,而这种较差的灵活性直接影响到并行数据库的弹性以及现用现付商业模式的实用性。

  并行数据库的另一个问题就是系统的容错性较差,过去人们认为节点故障是个特例,并不经常出现,因此系统只提供事务级别的容错功能,如果在查询过程中节点发生故障,那么整个查询都要从头开始重新执行。这种重启任务的策略使得并行数据库难以在拥有数以千个节点的集群上处理较长的查询,因为在这类集群中节点的故障经常发生。基于这种分析,并行数据库只适合于资源需求相对固定的应用程序。不管怎样,并行数据库的许多设计原则为其他海量数据系统的设计和优化提供了比较好的借鉴。

  作者简介

  陆嘉恒,中国人民大学副教授,新加坡国立大学博士,美国加利福尼亚大学尔湾分校(University of California, Irvine) 博士后。

作者: 陆嘉恒

来源:IT168

原文链接:大数据管理系统:浅析并行数据库优缺点

时间: 2024-10-04 13:42:10

大数据管理系统:浅析并行数据库优缺点的相关文章

大数据管理系统:NoSQL数据库前世今生

文章讲的是大数据管理系统:NoSQL数据库前世今生,NoSQL一词最早出现于1998年,它是Carlo Strozzi开发的一个轻量.开源.不提供SQL功能的关系型数据库(他认为,由于NoSQL悖离传统关系数据库模型,因此,它应该有一个全新的名字,比如"NoREL"或与之类似的名字). 2009年,Last.fm的Johan Oskarsson发起了一次关于分布式开源数据库的讨论,来自Rackspace的Eric Evans再次提出了NoSQL的概念,这时的NoSQL主要指非关系型.分

非结构化大数据管理系统的设计及其应用案例

非结构化大数据管理系统的设计及其应用案例 北京拓尔思信息技术股份有限公司 李银松 非结构化大数据管理系统的设计及其应用案例

孟小峰:大数据管理系统的发展与机遇

文章讲的是孟小峰:大数据管理系统的发展与机遇,2016年5月12日-14日,第七届中国数据库技术大会(DTCC 2016)在北京国际会议中心拉开帷幕.作为国内数据库与大数据领域最大规模的技术盛宴,在为期三天的会议中,大会将围绕MySQL.NoSQL.Oracle.缓存技术.云端数据库.智能数据平台.大数据安全.数据治理.大数据和开源.大数据创业.大数据深度学习等领域的前瞻性热点话题与技术展开深入探讨,并邀请一大批国内顶尖的技术专家来进行分享,以满足广大从业人士和行业用户的迫切需要. 本届是大会创

未来大数据发展趋势浅析

大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十.数百或甚至数千的电脑分配工作. 受欧债危机的影响,导致从去年第三季度开始,全球IT企业对IT投入逐渐开始持有谨慎的态度.然而曹宇钦表示,从技术的投入角度来说,虽然我们看到全球对于IT开支持有更加谨慎的态度,但是这并不会影响业界对于大数据的投入.投资,我们认为大数据在业界是一个快速发展的过程.大数据主要是帮助企业在现有的数据.已经产生的数据做整合,相应地做少量投入得到更大的回报. 孙博凯坦言,在我的

浅析传统关系数据库面临大数据的挑战

文章讲的是浅析传统关系数据库面临大数据的挑战,什么是大数据?多大的数据量可以称为大数据?不同的年代有不同的答案.20世纪80年代早期,大数据指的是数据量大到需要存储在数千万个磁带中的数据;20世纪90年代,大数据指的是数据量超过单个台式机存储能力的数据;如今,大数据指的是那些关系型数据库难以存储.单机数据分析统计工具无法处理的数据,这些数据需要存放在拥有数千万台机器的大规模并行系统上.大数据出现在日常生活和科学研究的各个领域,数据的持续增长使人们不得不重新考虑数据的存储和管理. 随着社会计算的兴

大数据存储系统面临的挑战

随着互联网的不断扩张和云计算技术的进一步推广,海量的数据在个人.企业.研究机构等源源不断地产生.这些数据为日常生活提供了便利,信息网站可以推送用户定制的新闻,购物网站可以预先提供用户想买的物品,人们可以随时随地分享.但是如何有效.快速.可靠地存取这些日益增长的海量数据成了关键的问题.传统的存储解决方案能提供数据的可靠性和绝对的安全性,但是面对海量的数据及其各种不同的需求,传统的解决方案日益面临越来越多的问难,比如数据量的指数级增长对不断扩容的存储空间提出要求,实时分析海量的数据对存储计算能力提出

大数据的安全挑战

大数据架构和平台算是新事物,而且还在以一种非凡的速度不断发展着.商业和开源的开发团队几乎每月都在发布其平台的新功能.当今的大数据集群将会与将来我们看到的数据集群有极大不同.适应这种新困难的安全工具也将发生变化.在采用大数据的生命周期中,业界仍处于早期阶段,但公司越早开始应对大数据的安全问题,任务就越容易.如果安全成为大数据集群发展过程中的一种重要需求,集群就不容易被黑客破坏.此外,公司也能够避免把不成熟的安全功能放在关键的生产环境中."大数据"一词常被误解.事实上,使用频率太高反而使它

大数据网络化精准营销带来全新商业价值

ZDNET至顶网CIO与应用频道 05月27日 综合消息:近日,大数据时代下的网络化精准营销培训在北京成功举办.来自凤凰网.爱奇艺.阿里云.缔元信.网络数据.湖南卫视芒果TV.广汽.联想.锐捷网络.电众数码.新华保险等40余位企业高管参加了本次培训课程. 本次培训课特聘请北京理工大学 大数据搜索挖掘实验室主任副教授张华平.缔元信.网络数据CEO秦雯.中国传媒大学新闻传播学院教授沈浩.CWA创始人宋星.华通人商用信息有限公司副总经理宗瑞兴.前腾讯公司社交网络事业群数据中心总监傅志华.北京互帮国际高

探讨大数据时代如何规划智慧城市

智慧城市(smart city)这一概念发端于20世纪80年代的信息城市(information city),经历了20世纪90年代的智能城市(intelligent city)与数字城市(digital city),在2000年后逐步演化为智慧城市.2009年IBM公司首次提出了智慧城市愿景,使得智慧城市理念与实践在全球范围内迅速传播.目前,在欧洲和北美已有数百座城市宣布建设智慧城市,IBM公司参与的智慧城市项目多达2 500余个,微软.思科.西门子.日立.松下等科技公司以及埃森哲.奥雅纳等商