《云数据管理:挑战与机遇》导读

前  言‖

大数据和云计算是研究文献和主流媒体中大量使用的两个术语。当我们走进云计算和数据洪流的时代,经常被问到的一个问题是:云数据管理中的新挑战是什么?本书就是由我们寻求回答这个问题发展而来,并使我们自己对这一问题有了更为深入的理解。本书首先介绍了一些初步的综述性论文,这些综述论文总结了适合键–值存储系统的主要设计原则,这些系统如谷歌的Bigtable、亚马逊的Dynamo和雅虎的PNUTS,通过在一个数据中心或者有可能在世界不同地方的多个数据中心中部署成千上万台服务器来达到前所未有的规模。由于这一领域引起了学术界和工业界越来越多的研究人员的关注,该领域从键–值存储进一步发展到支持更丰富功能的可扩展数据存储,如事务或除简单键–值模型之外的模式。因此,我们将3个系统的简单综述在新加坡举办的VLDB 2010会议和在瑞典乌普萨拉举办的EDBT 2011会议扩展成一个3小时长的教程。后来又有很多相关资料的介绍,因为这些教程以及我们对该问题的理解也随时间的推移发生了改变。其间也提出了更多的系统。本书对我们这些年课程的学习以及来自于我们讲座的很多有趣的讨论进行了总结。

与传统数据管理时代事务处理与数据分析系统之间的划分一样,云数据管理也有一个类似的划分。一种是面向数据存储和服务于互联网应用的系统。这些系统与经典的事务处理系统类似,尽管有很多不同之处。另一种是数据分析系统,类似于数据仓库,通过分析大量数据来从中获得知识和智能。随着企业不断地搜集用户数据,并对来自于多种数据源的数据进行合并,基于MapReduce的系统,如Hadoop及其生态系统,使得数据分析和数据仓库更加大众化。云数据分析方面有几十个开源产品和数百篇相关领域的研究论文,已经成为一个热门的研究领域。因为企业试图从它们的数据库中获得新的见解,从而取得竞争优势,该领域会得到进一步扩展。

我们的研究、分析和调查主要关注于第一类系统,即数据管理和存储系统。因此,本书也主要关注这些系统。本书将深入探讨在设计这些更新密集型系统中存在的挑战,这些更新密集型系统必须对访问数据库小部分数据的查询和更新提供快速响应。在该类中,我们进一步将研究划分成两类系统。在第一类中,挑战在于对系统进行扩展,从而服务于拥有几千个并发请求和数百GB到数百TB频繁访问数据的大型应用。第二类包括这样一种情况,云服务提供商必须有效地服务于数十万个应用程序,每个应用程序的查询负载和资源需求都比较少。

致谢

本书源自于几年前我们试图更好地理解云数据管理设计领域的愿望。结果就有了我们对该设计领域的不断深入的理解。这得益于我们周围有很多人提供了帮助,人数太多,以至于这里无法一一列出。但是,我们想借此机会感谢那些在本书中发挥了重要作用的人。

首先,我们想感谢编辑M. Tamer zsu,他给了我们写这本书的机会,并在整个过程中为我们提供了持续的支持和反馈。他认真阅读了大量的早期草稿,并给出了很多意见和修正,大大完善了本书。Diane Cerra作为我们的出版商Morgan & Claypool的执行编辑,为我们提供了必要的行政支持。没有来自Tamer和Diane的帮助与支持,本书将无法出版。

本书中的大部分材料都以不同的形式在世界各地的不同地点呈现过。在这些演示过程中,我们收到了许多与会者的反馈,这些反馈直接或间接地改善了我们的演示,并经常会给我们提供不同的角度。我们非常感谢所有提供这些慷慨反馈的人。我们也从与Shyam Anthony、Philip Bernstein、Selcuk Candan、Aaron Elmore、Wen-syan Li、Klaus Schauser和Junichi Tatemura的大量讨论中获益匪浅,在此对他们表示感谢。我们还要感谢2008~2012年间学习研究生课程(CMPSC 271和CMPSC 274)的所有研究生的贡献。

最后,我们要感谢我们各自的家庭,他们容忍我们为准备本书和相关资料而花费了无数个小时。没有他们的一贯支持和理解,本书也不会有面世的一天。

Divyakant Agrawal、Sudipto Das和Amr El Abbadi 

‖目  录

丛书前言

译者序

前言

第1章 简介

第2章 分布式数据管理

2.1 分布式系统

2.1.1 逻辑时间和Lamport时钟

2.1.2 向量时钟

2.1.3 互斥和仲裁集

2.1.4 领导者选举

2.1.5 基于广播和多播的组通信

2.1.6 一致性问题

2.1.7 CAP理论

2.2 P2P系统

2.3 数据库系统

2.3.1 预备知识

2.3.2 并发控制

2.3.3 恢复和提交

第3章 云数据管理:早期趋势

3.1 键–值存储系统概述

3.2 设计选择及其影响

3.2.1 数据模型

3.2.2 数据分布和请求路由

3.2.3 集群管理

3.2.4 容错和数据复制

3.3 键–值存储系统案例

3.3.1 Bigtable

3.3.2 PNUTS

3.3.3 Dynamo

3.4 讨论

第4章 托管数据的事务

4.1 数据或所有权托管

4.1.1 利用架构模式

4.1.2 访问驱动的数据库划分

4.1.3 特定于应用的动态划分

4.2 事务执行

4.3 数据存储

4.3.1 耦合存储

4.3.2 解耦存储

4.4 复制

4.4.1 显式复制

4.4.2 隐式复制

4.5 系统综述

4.5.1 G-Store

4.5.2 ElasTraS

4.5.3 Cloud SQL Server

4.5.4 Megastore

4.5.5 Relational Cloud

4.5.6 Hyder

4.5.7 Deuteronomy

第5章 分布式数据事务

5.1 云存储上的类数据库功能

5.2 地理复制数据的事务支持

5.3 使用分布式事务进行增量更新处理

5.4 使用迷你事务的可扩展分布式同步

5.5 讨论 98

第6章 多租户数据库系统

6.1 多租户模型

6.1.1 共享硬件

6.1.2 共享进程

6.1.3 共享表

6.1.4 模型分析

6.2 云中的数据库弹性

6.2.1 Albatross:共享存储数据库的实时迁移

6.2.2 Zephyr:无共享数据存储的实时迁移

6.2.3 Slacker:无共享模型中实时DBMS实例迁移

6.3 云中数据库负载的自动控制

6.4 讨论

第7章 结束语

参考文献

时间: 2024-09-20 13:05:22

《云数据管理:挑战与机遇》导读的相关文章

《深入理解Scala》——第1章,第1.2节当函数式编程遇见面向对象

1.2 当函数式编程遇见面向对象 深入理解Scala 函数式编程和面向对象编程是软件开发的两种不同途径.函数式编程并非什么新概念,在现代开发者的开发工具箱里也绝非是什么天外来客.我们将通过Java生态圈里的例子来展示这一点,主要来看Spring Application framework和Google Collections库.这两个库都在Java的面向对象基础上融合了函数式的概念,而如果我们把它们翻译成Scala,则会优雅得多.在深入之前,我们需要先理解面向对象编程和函数式编程这两个术语的含义

《深入理解Scala》——第1章,第1.4节与JVM的无缝集成

1.4 与JVM的无缝集成 深入理解Scala Scala的吸引力之一在于它与Java和JVM的无缝集成.Scala与Java有很强的兼容性,比如说Java类可以直接映射为Scala类.这种紧密联系使Java到Scala的迁移相当简单,但在使用Scala的一些高级特性时还是需要小心的,Scala有些高级特性是Java里没有的.在Scala语言设计时已经小心地考虑了与Java无缝交互的问题,用Java写的库,大部分可以直接照搬(as-is)到Scala里. 1.4.1 Scala调用Java 从S

《深入理解Scala》——第2章,第2.1节学习使用Scala交互模式(REPL)

第2章 核心规则深入理解Scala 本章包括的内容: • 使用Scala交互模式(Read Eval Print Loop 简称REPL) • 面向表达式编程 • 不变性(Immutability) • Option类 本章内容覆盖了每个新Scala开发者都需要知道的几个主题.本章不会深入到每个主题里,但是会讲到可以让你自己去接着探索的程度.你将学会使用REPL,学会如何利用这个工具做软件的快速原型开发.然后我们会学到面向表达式编程,并从另一个视角来看控制结构是怎么回事.在此基础上,我们来研究不

《深入理解Scala》——第1章,第1.3节静态类型和表达力

1.3 静态类型和表达力 深入理解Scala 开发人员中有一个误解,认为静态类型必然导致冗长的代码.之所以如此是因为很多继承自C的语言强制要求程序员必须在代码中多处明确地指定类型.随着软件开发技术和编译器理论的发展,情况已经改变.Scala利用了其中一些技术进步来减少样板(boilerplate)代码,保持代码简洁. Scala做了以下几个简单的设计决策,以提高代码表达力. • 把类型标注(type annotation)换到变量右边. • 类型推断. • 可扩展的语法. • 用户自定义的隐式转

《深入理解Scala》——第1章,第1.5节总结

1.5 总结 深入理解Scala 本章中,你学到了一些Scala的设计理念.设计Scala的初衷在于把不同语言中的多种概念融合起来.Scala融合了函数式和面向对象编程,尽管显然Java也已经这么做了.Scala精选其语法,极大地减少了语言中的繁冗之处,使一些强大的特性可以优雅地表达,比如类型推断.最后,Scala和Java能够紧密集成,而且运行在Java虚拟机上,这或许是让Scala变成一种实用选择的最重要的一点.几乎不花代价就可以把Scala用于我们的日常工作中. 因为Scala融合了多种概

《深入理解Scala》——第1章,第1.1节Scala一种混合式编程语言

第1章 Scala--一种混合式编程语言 Scala是一种将其他编程语言中的多种技巧融合为一的语言.Scala尝试跨越多种不同类型的语言,给开发者提供面向对象编程.函数式编程.富有表达力的语法.静态强类型和丰富的泛型等特性,而且全部架设于Java虚拟机之上.因此开发者使用Scala时可以继续使用原本熟悉的某种编程特性,但要发挥Scala的强大能力则需要结合使用这些有时候相互抵触的概念和特性,建立一种平衡的和谐.Scala对开发者的真正解放之处在于让开发者可以随意使用最适合手头上的问题的编程范式.

《深入理解Scala》——第2章,第2.2节优先采用面向表达式编程

2.2 优先采用面向表达式编程 深入理解Scala 面向表达式编程是个术语,意思是在代码中使用表达式而不用语句.表达式和语句的区别是什么?语句是可以执行的东西,表达式是可以求值的东西.在实践中这有什么意义呢?表达式返回值,语句执行代码,但是不返回值.本节我们将学习面向表达式编程的全部知识,并理解它对简化程序有什么帮助.我们也会看一下对象的可变性,以及可变性与面向表达式编程的关系. 作者注:语句VS表达式 语句是可以执行的东西,表达式是可以求值的东西. 表达式是运算结果为一个值的代码块.Scala

《深入理解Scala》——第2章,第2.3节优先选择不变性

2.3 优先选择不变性 深入理解Scala 编程中的不变性指对象一旦创建后就不再改变状态.这是函数式编程的基石之一,也是JVM上的面向对象编程的推荐实践之一.Scala也不例外,在设计上优先选择不变性,在很多场景中把不变性作为默认设置.对此,你可能一下子会不适应.本节中,我们将学到不变性对于判等问题和并发编程能提供什么帮助. Scala里首先要明白的是不变对象和不变引用(immutable referene)的区别.Scala里的所有变量都是指向对象的引用.把变量声明为val意味着它是个不变"引

《深入理解Scala》——第2章,第2.4节用None不用null

2.4 用None不用null深入理解Scala Scala在标准库里提供了scala.Option类,鼓励大家在一般编程时尽量不要使用null.Option可以视作一个容器,里面要么有东西,要么什么都没有.Option通过两个子类来实现此含义:Some和None.Some表示容器里有且仅有一个东西,None表示空容器,有点类似List的Nil的含义. 在Java和其他允许null的语言里,null经常作为一个占位符用于返回值,表示非致命的错误,或者表示一个变量未被初始化.Scala里,你可以用

《深入理解Scala》——第2章,第2.5节多态场景下的判等

2.5 多态场景下的判等 深入理解Scala 众所周知,为多态的面向对象系统定义合适的判等和散列方法是个特别难的过程.这是因为子类可能在整个过程中造成一些相当怪异的问题,尤其是当类型层次上有多个实体(concrete)级别的时候.一般来说,对于需要比引用判等更强的判等(译者注:比如需要判断对象内部数据)的类,最好避免多层实体类层次.这是什么意思呢?有些时候类只需要引用判等就够了.也就是说只要两个对象不是同一个实例就判为不等.但是如果我们需要判断两个不同实例是否相等,而且又有多层实体类层次(mul