云计算中的分片关系数据库

电子商务、社会媒体、移动通讯以及机器到机器的数据交换都制造着TB级乃至 PB级的海量数据,它们是企业IT部门所必须存储和处理的。在用户处理面向云计 算数据库的数据时,掌握分片最佳实践无疑是在云规划过程中迈出了重要的一步 。

分片是指将表分割为可管理大小的磁盘文件的过程。一些高弹性的键值 数据存储(如Amazon Simple DB、Google App Engine的数据存储或Windows Azure Tables)和文档数据库(像CouchDB、MongoDB或RavenDB)可以垂直处理表 中的大数据。MongoDB内建的自动化分片特性,RavenDB也将在不久的将来增加该 功能。自动化分片可以自动地平衡分片大小并消除对DevOps团队监控该过程的需 要。自动化分片的MongoDB数据库可不是想象的那么简单,正如Todd Hoff在博客 中贴出的有关分片疑难的博文所述。

但仍有小部分键值和文档(被称为 NoSQL)数据库缺少传统关系数据库管理系统(RDBMS)所提供的交易数据一致性 功能。你可以在内存、处理器或是二者上砸钱来扩展RDBMS(垂直方向上)。你可 以配置256GB的RAM到高端商用服务器,但本质上增加更多的CPU核心却并不实际。 如果你的数据库在云中,你会受限于内存和处理器,而这都些取决于云供应商的 报价单。

扩展RDBMS(水平方向上)导致了一个本质上的技术挑战。2009 年8月,Morgan Tocker详细地在博客中讨论了为什么你不会选择分片MySQL数据库 。Tocker认为在遇到以下问题时,你可能才需要分片数据库表:

过大的工 作集:你的工作集,由频繁访问和更新的数据与索引构成,不适合RAM安装在本地 服务器,不适合硬件预算或云服务供应商所能实现的硬件数量。解决方案就是分 片。

过度的写频率:你的数据库I/O系统不能处理由本地或是基于云的服 务器请求所导致的每秒写次数。解决方案是分离读操作到读拷贝,这可能需要分 片来实现分散I/O负荷到多个数据库服务器。

AWS针对MySQL的关系数据库 服务提供了其最大的High-Memory Quadruple Extra Large DB实例,该实例包含 68GB的内存和26个ECUs。这些ECU们由8个虚拟核心构成,相当于每3.25个ECU拥有 一个核心。其售价为每小时2.60美元(每月1872美元)。根据AWS的报价单,一个 ECU所提供的性能相当于1.0-1.2 GHz 2007 Opteron或2007 Xeon处理器的性能。 AWS RDS DB实例可选择从5GB到1TB的相关存储性能,价格为每GB每月0.1美元。数 据传输费用为每GB0.12美元的数据输出,再加每百万次0.1美元的I/O请求。 Amazon从7月1日起取消了数据输入的费用,并降低了数据输出的费用。

为 实现读拷贝进而实现高可用的商用服务器,你可能还需要额外的存储费用。幸运 的是,ScaleBase提供了第三方Database Load Balancer 应用来自动化分片,并 针对运行在Amazon EC2 或Amazon RDS的MySQL实现读、写分离。

2009年8 月在发布的“分片的麻烦事儿”博文中,Simon Munro总体上介绍了关系据库的分 片问题,特别讨论了微软SQL Server 2008的SQL Azure定制化云实现。当时,SQL Azure的最大数据库大小仅为10GB,现如今已是50GB。

微软Azure Application Platform团队的新公司副总裁Scott Guthrie在今年6月9日举行的 Norwegian Developer Conference(NDC)2011大会上发言:

“……我们 同样将自动化分片作为SQL Azure的一部分,这意味着从扩展前景来看,我们可以 处理超高负荷,并可为用户实现任何类型的负载平衡和扩展工作。”

如今 ,SQL Azure对数据库的支持虽为50GB的关系型存储,但你却可以拥有任意数量的 数据库。

通过SQL Azure Federations自动化分片目前尚处于技术预览 (Community Technical Preview)阶段,从Guthrie的发言还很难断定分片是否 有望“支持百GB或TB级” 。此外,SQL Azure Federations还承诺可以出色地完 成模式迁移。SQL Azure包含一个主要和两个次要的针对高可用性的备份,服务是 即付即用的,1GB到5GB的(Web版)每GB每月9.99美元,以及10GB到50GB的(商业 数据库)每10GB每月99.99美元。每月的固定费用不包括数据传输费用,在北美、 欧洲的数据中心每GB输出费用为0.15美元,在亚洲每GB输出费用为0.2美元。微软 从7月1日起取消了数据输入费用。与Amazon RDS不同,你不会产生SQL Azure的 I/O费用。

微软还没有透露有关SQL Azure的CPU和内存说明,但是公司表 示它们与数据库的大小相当。你可以在Cihan Biyikoglu的博客上获得有关今年底 SQL Azure Federations商业版发布的日程。

Google在其5月的I/O 2011会 议上宣布,下半年商业发布的Google App Engine Beta版将结合RDBMS,并将与商 业版GAE一同包含在内,但公司没有透露有关性能和价格方面的细节。

除 非Google像变戏法似的实现RDBMS的高扩展性,否则还是准备好分片关系数据库才 能处理好云计算中的大数据。

时间: 2024-10-23 05:35:39

云计算中的分片关系数据库的相关文章

大数据在云计算中转换的4个步骤

如今的企业必须向顾客提供始终如一的高价值体验,否则会失去顾客.他们正在求助于大数据技术.通过大数据分析,组织可以更好地了解他们的客户,了解他们的习惯,并预测他们的需求,以提供更好的客户体验. 但是,大数据转换的路径并不简单.传统数据库管理和数据仓库设备变得过于昂贵,难以维护和规模化.此外,他们无法应对当今面临的挑战,其中包括非结构化数据,物联网(IoT),流数据,以及数字转型相结合的其他技术. 大数据转换的答案是云计算.参与大数据决策的IT专业人士中有64%的人表示已将技术堆栈转移到云端,或正在

位图索引-如何用CloudSim模拟云计算中的索引问题?

问题描述 如何用CloudSim模拟云计算中的索引问题? 例如分片位图索引,如何用CloudSim模拟出云计算的环境,然后对比这个索引是否比普通索引高效?图片是我之前看到过的分片位图索引的实验步骤,但是是在真机上部署,如果用CloudSim可以仿真模拟出来吗?

云计算是否真的抛弃关系数据库了

本文讲的是云计算是否真的抛弃关系数据库了,[IT168 资讯]"在云计算计划里将找不到关系数据库的影子,这并非偶然,因为关系数据库不适合用于云计算环境"Geir Magnusson,10Gen工程副总裁这样认为.10Gen是一家按需平台服务供应商. Magnusson帮助编写过Apache Geronimo应用服务器软件,本周在纽约举行的O'Reilly Web 2.0 会议上发言中他指出:"云计算是一种不同的技术,不同得足够改变开发者看待问题和解决问题的方式".&

面向人口信息系统的云计算中隐私保护技术研究

面向人口信息系统的云计算中隐私保护技术研究 北京邮电大学  苗新宇 本文所提出的基于半可信第三方的隐私保护模型是解决人口信息系统中的数据存储到云服务平台所面临的数据隐私泄露问题.通过引入的基于互斥数据属性的数据切片以及半可信第三方的隐私保护策略所生成的数据切片标识,达到人口信息系统数据在模型中的存储流程.人口信息系统数据的删除.读取流程的隐私保护.最后,对于模型的安全性指标进行了分析,能够达到对人口信息系统数据的隐私保护的目的. 关键词-人口信息系统: 云计算: 隐私保护: 数据分片    te

云计算中的5个真相

云计算的发展非常迅速.而这里有5项我们无法回避,能够助力商业发展的真相: 真相#1:云计算很时髦 真相#2:不,云不是新鲜玩意.只是一种...颠覆性的革新 真相#3:是的,云计算将带来隐私及可靠性方面的安全隐患 真相#4:软件架构师,准备好 真相#5:IT架构师,准备好.云效应正快速袭来 上个星期可谓是"云满天".微软公布了其云计算操作系统.亚马逊宣布将在其可伸缩云架构中提供对Windows的支持.博客界也在对Larry Ellison在Oracle Open World 大会上关于云

云计算中的Stream

云计算中的Stream-stream云计算">曾经创造了半条命(Half-Life),反恐精英(Counter-Strike),胜利之日(Day of Defeat),军团要塞(Team Fortress),入口(Portal)的Valve Software,最近有了一个有趣的举动,他们宣称即将发布并推广云计算版本的Steam(Steam Cloud).这实际上是一个免费的扩展,允许任何登录数据内容平台的用户在服务器端存储游戏记录,鼠标及键盘的配置文件.并允许玩家们通过多台PC访问他们的数

说说云计算中的地域和可用区概念

上一篇说数加的文章,很多同学向我吐槽说看不懂,里面有太多云计算的产品和概念,对于没有接触使用云计算的同学来说,确实有点像天书一样,满眼都是陌生的名词.所以接下来准备安利一下云计算的一些基本概念,看看对大家有没有帮助. 亚马逊AWS是公共云计算的先驱,一些云计算中重要的产品设计和基础概念可以说都是亚马逊引入的.这其中有两个非常重要的概念:地域(Region)和可用区(AZ:Availabe Zone).很多第一次接触云计算的同学,光看这两个名字的字面意义,虽然也能够猜出大致的意思,但深入的学习了解

什么是HADOOP、产生背景、在大数据、云计算中的位置和关系、国内外HADOOP应用案例介绍、就业方向、生态圈以及各组成部分的简介(学习资料中的文档材料)

1. HADOOP背景介绍 1. 1.1什么是HADOOP 1.        HADOOP是apache旗下的一套开源软件平台 2.        HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 3.        HADOOP的核心组件有 A.       HDFS(分布式文件系统) B.       YARN(运算资源调度系统) C.       MAPREDUCE(分布式运算编程框架) 4.        广义上来说,HADOOP通常是指一个更

应用层是云计算中缺失的重要组成部分

本文讲的是应用层是云计算中缺失的重要组成部分[IT168 资讯]最近,高科技出版物上的一些文章对云计算的好处提出了严重的质疑,甚至诋毁.在研究公司方面,Gartner称,云计算现在接近了其"膨胀的预期的顶峰",也就是说企业用户对于云计算的理想很快将破灭.同时,一些记者强调云计算面临的障碍,包括对于不同的云计算平台的不兼容以及安全问题的担心. 从表面上看,一些担心似乎是合法的.但是,更近一些的观察表明上面提出的一些问题已经有了解决方案,从而削弱了那些对云计算未来的攻击.对于云计算提出的大