张大朋(Lunar)Oracle 工程师
Lunar 拥有超过十年的 ORACLE SUPPORT 从业经验,曾经服务于ORACLE ACS部门,现就职于 ORACLE Sales Consultant 部门,负责的产品主要是 Exadata,Golden Gate,Database 等。
编辑说明:感谢Lunar授权我们转载其原创文章,文章插入了一些我们以前分享的图片,作为配合解读。
2015年8月份内部release了Oracle 12.2 Beta版本(目前内部最新release的版本是2016年2月份发布的,windows和Linux都有了),目前根据12.2beta文档的介绍,Oracle推出了sharding的功能,跟其他NOSQL型的sharding结构相比,Oracle Sharding提供的是企业级的RDBMS的分片技术。
Oracle Sharding的优点:
• Relational schemas
• Database partitioning
• ACID properties and read consistency
• SQL and other programmatic interfaces
• Complex data types
• Online schema changes
• Multi-core scalability
• Advanced security
• Compression
• High Availability features
• Enterprise-scale backup and recovery
在Oracle RDBMS 12.2.0.1中最多支持1000个shards。
Oracle Sharding使用GDS(Global Data Services)架构来自动部署和管理sharding和复制技术。GDS(GDS是Oracle RDBMS 12.1的新特性)也提供负载均衡和SDB(sharded database)中的基于位置的路由功能。
Shard目录(Shard directors)使用GDS framework的全局服务管理组件(global service manager component)来提供应用层请求到shard的直接路由。shard目录(Shard directors)是一个单独的数据库,它用来保存SDB(Sharding database)配置数据和提供其他相关功能,比如shard的交叉查询和集中管理。可以使用GDS是GDSCTL工具可以用来配置SDB。
Oracle Sharding的分区架构(Partitioning Infrastructure)
分区在表空间级别跨Shards分布,每个表空间关联一个特定的shard。一个shard表的每一个分区放单独的表空间,并且每个表空间关联到一个特定的shard。根据不同的sharding方法,这个关联可以自动建立或者根据定义创建。尽管一个shard表的多个分区放在多个单独主机的数据库上(这些数据库完全独立,不共享CPU、内存等软件和硬件),但是应用访问表时就如同访问一个单独数据库中的分区表一样。应用发出的SQL语句不需要依赖shard号和shard的物理配置。
Oracle Sharding 使用 familiar SQL 语法创建表分区,指定分区表的每行数据如何分片。
一个shard表的分区键叫做sharding key,例如,下面的语法是典型的用来创建sharding表的:
CREATE SHARDED TABLE customers
( cust_id NUMBER NOT NULL
, name VARCHAR2(50)
, address VARCHAR2(250)
, region VARCHAR2(20)
, class VARCHAR2(3)
, signup DATE
CONSTRAINT cust_pk PRIMARY KEY(cust_id)
)
PARTITION BY CONSISTENT HASH (cust_id)
TABLESPACE SET ts1
PARTITIONS AUTO;
这个数据分片(shard)就是基于键值cust_id,分区采用“CONSISTENT HASH”,这是一个特定的hash分区类型,通常用在分布式系统上。
.
Sharding a Table Family
一个表家族(Table Family)中没有任何父表的表叫做根表(root table),每个表家族中只能有一个根表。
表家族中所有的表按照根表的主键进行sharding,根据各级表的结构,相关数据可以被存储在同一个shard上。
在12.2,在一个SDB中只支持一个表家族。
.
以下面的例子说明,这里一共3张表组成的表家族(Table Family):客户表,订单表和订单明细表。
每个客户可以有多个订单,每个订单中可以有多个商品,因此订单明细中就记录了每个订单中的多个商品,他们的具体数据如下:
在这个表族中,客户编号为123的数据如下:
将一个表族(Sharded Table Family)分片通常使有下面两种方法创建:
方法1:不显示指定父子关系,而是通过表之间主外键关系创建表族。
这种方式创建的表族是一个多级的树形结构。
根表(root table)是客户表:
–客户表的主键是CustNo,分区方式是“CONSISTENT HASH (CustNo)”
–保存再表空间集ts1中
CREATE SHARDED TABLE Customers
|
–订单表是客户表的字表,子表(订单表)根据CustNo关联父表(客户表):
–订单表的主键是(CustNo, OrderNo),外键(CustNo)引用了主表Customers(CustNo)
–分区方式是按照订单表的外键约束(CustFK)
CREATE SHARDED TABLE Orders
|
–订单明细表是订单表的字表,子表(订单明细表)根据CustNo关联父表(订单表)
–订单明细表的主键是(CustNo, OrderNo, LineNo),外键(CustNo, OrderNo)引用了父表Orders(OrderNo)和Orders(CustNo, OrderNo)
–分区方式是按照订单明细表的外键约束(LineFK)
CREATE SHARDED TABLE LineItems
|
因此,上面的例子中,这个表家族的所有数据都保存在同一个表空间集ts1中。
当根表中增加一个分区的时候,那么相关联的表中都会自动增加相应的分区。
.
方法2:在分区表中显示指定父子关系的方法创建表家族
这种分区方法只支持两级的表家族(two-level table families),所有的子表必须有相同的父表,父表的分区列在每个子表中都存在,例如下面的CustNo.
.
–没有关键字“PARENT”(也没有上面引用约束关键字)的是根表,即客户表(Customers)
CREATE SHARDED TABLE Customers
|
–根据关键字“PARENT Customers”指定了订单表(Orders)的父表是客户表(Customers)
CREATE SHARDED TABLE Orders
|
–根据关键字“PARENT Customers”指定了订单明细表(LineItems)的父表是客户表(Customers)
CREATE SHARDED TABLE LineItems
|
Creating a Duplicated Table Using CREATE TABLE
复制表可以被复制到所有的shard上,这种在每个shard上有相同内容的表叫做复制表(Duplicated Table),需要经常跟shard表关联的小表适合于作为复制表(Duplicated Table),适用于:
(1)只读表
(2)大量跨shard的读操作
Oracle Sharding使用Materialized View Replication来同步复制表(duplicated tables)的内容,每个shard上的duplicated tables的内容是一个只读物化视图(read-only materialized view)。
物化视图(materialized views)的主表保存在一个专门的数据库中,叫做Shard Catalog。
所有shard上的物化视图(materialized views)会根据配置的频率自动刷新。
创建复制表的语句“CREATE DUPLICATED TABLE”会自动创建master表,物化视图和其他物化视图复制所需要的对象。
还是以上面的客户订单关系为例,这里定义产品表(Products)为复制表:
CREATE DUPLICATED TABLE Products
|
根据sharding的机制,sharding的设计对后续系统性能影响是非常大的。一旦sharding创建完成,并已经有很多数据,相关的属性就不能再修改了,比如某个表是复制表,还是sharding表,sharding key等等,因此,SDB的设计是至关重要的,在设计sharding时需要考虑的有:
哪些表需要被设计为sharding表;
哪些表需要做复制表;
哪些shard表是根表;
使用什么方法来关联一个表到其他表或者根表;
应该使用哪种sharding方法;
使用哪个作为sharding key;
文章转自数据和云公众号,原文链接