解析SQL与NoSQL的融合架构产品GBase UP

文章讲的是解析SQL与NoSQL的融合架构产品GBase UP,本文根据【DTCC2016中国数据库技术大会】现场演讲嘉宾武新博士分享内容整理而成。录音整理及文字编辑IT168@杨璐

  讲师简介

  武新博士

  武新,博士,现任南大通用高级副总裁兼CTO。

  第五批“国家千人计划” 专家,2010年获得中组部实施的国家“千人计划”荣誉(海外高层次人才引进计划);曾作为资深数据库专家,在甲骨文公司(法国)任职11年;曾是法国 EKIP 软件公司的技术负责人、法国电信软件开发工程师。

  武新博士自加入南大通用以来,主导设计和研发了GBase 8a 列存储数据库, GBase 8a MPP Cluster大规模并行数据库集群等一系列产品。

  正文

  大家上午好,我是南大通用的CTO武新,非常高兴也非常荣幸的代表公司来给大家汇报一下我们下午即将发布的一款新产品,这里我提前把产品的一些细节分享给大家。

  要发布的产品是面向企业和行业的用户,我们认为是一款行业和企业用户真正需要的大数据平台产品。它的名字叫GBase UP,UP是Unified Platform,我们希望能把关系型数据库和NoSQL的一些子系统和技术融合在一个产品里面。

  我的汇报大概分成四部分

  行业IT面临的一些痛点和问题

  经过几十年的发展,我们其实已经建立了很多很成熟的业务系统和应用系统。这些业务系统的建设其实过去一直是以事务型的方式在建设,也就是说,首先要满足我们的业务需求,这种业务系统往往是以传统数据库,以交易型为主,其数据强调自身的、局部的完整性和一致性。

  这就对我们今天的数据分析产生了一个矛盾的地方。因为每个业务系统只有我们这个企业的一部分数据,我们的数据分析需要的是在全局数据里面挖掘出信息。从大数据角度来说,我们认为可能是一个全视角的需求。

  那么怎么把数据孤岛打通,汇总在一起,真正在上面进行我们全视角的大数据分析,其实这是一个我们现在的业务系统和大数据分析的一个矛盾。

  三座大山:1.我们过去建立了很多数据孤岛,这些数据孤岛我们还继续在建设,因为我们的业务系统在企业里面基本上是按具体业务去设计,去应用的,他很少考虑全视角的建设;我们做这个数据分析的时候,我们就需要把这些数据孤岛打通。过去一个方法是做数据仓库,已将近二十年历史了。在做数据仓库的时候常常面临的性能问题,跟传统数据库的体系架构还是有关系的。

  2.用新一代基于MPP架构的数据库产品,我们其实解决了大型数据仓库的效率问题和规模问题。这样我们可以把我们一些业务系统的数据真正汇总在一个平台上进行全视角的分析。3.未来,其实未来也就是现在,面临着大数据的挑战,我们认为大数据不仅仅是关系型数据库产生的数据,不仅仅是当前业务产生的数据,还有其他来源的数据。这些数据和我们的业务数据怎么进行关联,这些数据可能需要不同的模型来处理,还有一些异构的技术,包括一些新的技术也层出不穷。其实这些都是我们企业今天面临的挑战。

  大数据时代分而治之的数据处理解决方案

  1. 传统的事务型数据库,这一类数据库已非常成熟,也是目前在企业里交易系统最核心的数据库产品。

  2. 新型的MPP数据库产品,是基于大规模并行计算和横向扩展的架构这样一类数据库产品。

  3. hadoop,hadoop长处是有些关系型数据库解决不了或者是处理不了的一些问题他能处理。

  既然这三种技术之间目前还没有一种技术能完全替代其他的技术,那么对大数据平台的需求自然就是这三种技术融合在一起,这是我们的一个想法,也是我们针对这样一个想法实现了我们这个产品。

  企业大数据系统落地难

  1. 大数据的技术变化非常快,对于企业来说,需要一个稳定的平台和技术支持生产系统。

  2. 在大数据的视角下需要结构化数据和一些半结构化数据甚至非结构化数据提取出来进行各种各样的关联。

  3. 越来越多的组件导致运维很困难。

  4. 对于普通企业用户来说,还有一个问题就是系统开发和技术支持方面的人才匮乏。

  农业银行与浙江移动大数据平台案例

  这是一个混搭的架构,左边是农行主要核心业务系统,大概有两百多个。那么这些核心业务系统都属于一些孤岛式的业务系统,他每个业务系统只是企业数据的一部分,通过我们现在这个MPP的平台来把这些所有的数据汇总在一起,放在一个平台上,建立ODS,然后进行一层一层的汇总,解决了业务数据数据孤岛的问题。

  这个案例也用MPP数据库替代了整个传统的关系型数据库,有多个集群,有三到四个MPP数据库集群。从二十多个结点到三四十个结点这样一个规模。

  通过UP实现能进一步的降低hadoop和关系型数据库之间融合应用的复杂度,给用户带来真正的价值。

  IBM大数据平台解决方案展示

  大家在把一些数据库的引擎,包括SQL层嫁接到hadoop上来,主要是嫁接到HDFS上面来。但是缺点大于优点,一是效率问题,一是对事务的支撑能力较弱。第三是处理数据的密度。目前从MPP数据库的角度来说,一个结点已经能够管理一百TB的有效数据了。在用HDFS上架SQL这一层,现在他的密度还是远远低于这样一个MPP数据库的密度。

  对于用户价值更大一点的是SQL和hadoop,我们把这个成熟的关系型数据库跟hadoop的生态融合在一个平台上,这是我们UP设计的整体思想。

  这样大家用SQL来处理数据会越来越丰富,其实我们丰富了关系型数据库,扩展他的疆域和能力,同时又可以利用hadoop的一些优点来达到大数据的处理效果,这是整体的设计思路。

  GBase UP的整体架构和细节介绍

  在企业开发应用,还是要用不同的产品。从应用的角度、从开发的角度来说,建立引擎之间的存储和计算通道,是一个难题。

  1.UP首先通过融合来简化用户的开发和使用。在几个异构的引擎之间,上层包括统一的API和分布式调度、执行的统一SQL层,中间是异构的一些引擎,底层是数据通信总线。我们的统一SQL层,除了支持传统的SOL数据库意外,还对其他方面进行了扩展。

  2.在UP层元数据的统一。

  3.平台的扩展能力,一个是数据交换。我们实现了透明的引擎之间的数据关联和交换;第二是实现全数据的管理,除了结构化数据以外,为半结构化,非结构化数据统一的视角下进行管理;最后是扩展,通过灵活的UDF机制,对平台提供扩展功能。

  4.数据生命周期管理实现透明和自动。我们看技术架构:

  这不是一个简单的路由器或者中间件,这是一个真正的类似MPP风格的分布式数据库。我们上层是一个驱动层,解析从应用过来是SQL,包括标准的SQL和hadoop生态的方言。我们有DDL执行器,我们有DQL和DML优化机和执行器。最底层针对不同的引擎以插件的方式插入到我们这个平台里面来,这样的好处就是我们未来还可以很容易的扩展到其他引擎上面去。

  GBase UP应用场景及案例分享

  很多DBA对SQL比较熟悉,因此这里用SOL来表达UP的一些能力。先来看看应用场景部分:

  1.异构引擎透明访问 简化应用开发,降低数据建模的复杂度

  2.跨引擎数据交换 高吞吐率的多对多通讯机制

  3.跨引擎关联查询 实现自动优化的引擎间关联分析

  4.跨引擎读写分离 支撑大规模数据事务处理和实时BI数据分析

  5.数据生命周期管理 跨引擎分区表 按不同温度选择最合适的引擎存储数据 降低数据持有成本

  6.PB级备份与恢复 实现在线PB级数据备份与恢复

  7.BLOB on Hadoop扩展非结构化数据存储和计算能力

  8.UDF扩展 通过自定义UDF函数 灵活扩展系统的计算能力

  有了UP以后,我们在建表的时候,我们对SQL进行拓展。建这个表的过程中,他的META DATA(元数据)被我们的UP给存储、管理起来了。对用户来说就完成了,那么剩下的,无论是你做DML操作、数据的加载,还是查询这都变成了完全透明。

  案例分享

  下面几个案例我们就是建了表了以后,我们通过上层的应用就可以很透明的穿透了UP去访问不同的引擎,然后我们可以进行数据的加载。

  有了这样的一个元数据之后,我们可以很容易的实现跨引擎的数据交换,当然,这种跨引擎数据交换目前没有我们的UP也能做,用户主要是通过ETL,通过复杂调度程序,比如说在hadoop里面先做一些预处理,把计算的结果导入数据仓库里面去。

  另外一个就是跨引擎的关联查询,因为我们建完表以后,用户来说就是透明。例如:我们有一个关联,这个关联是在Spark上有两个表,还有一个表是在数据仓库MPP里面,这三个表之间进行了一个关联。那么在这个关联的过程中我们可以看一下,我们的执行计划是在两个集群上进行的并行计算,一个是在hadoop集群上进行计算。同时在MPP上也进行计算,当然两者又都是并行计算。这样我们大大的提升了整个集群的处理的效率。

  关于实现跨引擎级别的读写分离,在很多的应用场景,不一定需要事务和读的强一致性。

  我们的事务操作要保证他的一致性,而在分析业务里面去读刚放产生的数据,而在很多应用里头,两者是可以分开的。我们通过一种叫镜像表的模式,就是同时在OLTP和OLAP两个引擎里面建立,实现一个实时同步的机制。

  这就意味着我可以支撑非常高效的DML操作。这样就可以实现比如说实时的高效交易处理和数据分析并存的业务场景。我们通过自己搭积木的方式也能实现这样一个机制,但是从应用角度来说还是非常难的一件事情。

  最后一点是UDF的扩展,我们知道在hadoop上,我们很容易扩展一些算法。而且这些算法在关系型数据库里面其实很难实现,效率也不高,这点我们通过UP的扩展,也就是说我们在hadoop上面可以用任何语言写一个函数。比如说写一个算法,在我们的UP上进行注册,那么我们这个函数和算法就可以用SQL来进行调用了,这样大大扩展了我们关系型数据库处理能力。

  总结

  关系型数据库仍然是最成熟,处理数据效率最高的系统,是我们核心业务的支撑平台。在可见的未来我相信这个也不会很快的改变。

  另外SQL也作为应用使用最广泛的数据处理语言,所以我们也看到了,除了关系型数据库的SQL在继续丰富外,我们现在把它拓展到hadoop的生态里面去了。

  无论是什么类型的数据,包括一些非结构化的数据,我们把他的一些特征提取出来,就是常说的转非。这些特征数据和其他的一些数据进行关联分析也是最容易的,这也的确是我们面对的现状。

  最后一点就是大数据的处理就要满足高效的数据采集和存储,这跟事务是有关系的。同时要满足全视角的数据分析,成熟的融合是大数据平台的一个核心。从GBase角度来说我们希望最终给用户提供完整的视角,其实用户不需要关心用什么样的技术去存储和管理数据。用户需要的是能不能高效存取,然后数据能有完整性和一致性,最终进行高效的各种各样的关联分析,这也是GBase UP这个产品要给用户带来的最终价值。

作者:杨璐

来源:IT168

原文链接:解析SQL与NoSQL的融合架构产品GBase UP

时间: 2024-09-18 00:43:27

解析SQL与NoSQL的融合架构产品GBase UP的相关文章

Inspur World:融合架构产品从定制走向通用

10月27日,Inspur World数据中心分论坛在上海举行.分论坛演讲的重要观点之一则是,随着业务的不断扩大和成熟,浪潮融合架构产品正在从定制化转向通用化,用内部资源池化的手段实现灵活的资源分配和重构,破解设备多样化的难题.   计算+ 智慧云动力分论坛 本届Inspur World以"Only Data 数据进化世界"为主题.浪潮提出数据社会化,计算是数据社会化的关键和基础.浪潮集团副总裁彭震在Inspur World数据中心分论坛做了主题演讲,计算是数据社会化的基础,因而随着数

王柏华:融合架构变革传统数据中心

文章讲的是王柏华:融合架构变革传统数据中心,数据中心是企业IT支持业务发展的关键领域之一,也是众多IT服务商历来必争"兵家之地".当下,随着互联网.大数据.云计算等技术以及业务的快速发展,使得传统的数据中心正在处于挑战与机遇并存的局面.面对传统数据中心和挑战与机遇,日前,在2014浪潮技术与应用峰会上,浪潮集团执行总裁王柏华就当下数据中心的机遇.挑战以及如何"破冰"数据中心挑战,分享他的看法. 数据中心的需求与挑战 说到企业的数据中心,那么现在的企业数据心有哪些挑战

浪潮首度公布SDDC战略 融合架构定义下一代数据中心

10月23日,浪潮在"Inspur World"技术与应用峰会上首次公布软件定义数据中心(SDDC)战略,将其定位成浪潮云计算整体战略的重要组成部分,清晰表明将在变革中的软件定义数据中心市场全面发力.在随后召开的"软件定义数据中心基础设施与行业应用分论坛"上,浪潮对SDDC战略予以立体解读,详细阐释了这一战略的核心理念--融合架构(Smart Architecture),展示了浪潮所定义的软件定义数据中心(Smart Data Center)蓝图. 图1-浪潮云数据

超融合架构是一个功能而不是一款产品

 如果HCI(超融合架构)听上去简单,那是因为超融合基础架构不是一款产品,而是一个功能.未来依托于交钥匙云解决方案.这也意味着某些IT服务HCI供应商为了保持相关性需要将它提到台面上来. 从最基本层面来看,HCI是虚拟化+存储.你用硬盘,把它们放到服务器里然后在上面放一个虚拟管理程序,集成到管理程序或者跑在虚机里,通过传递资源,在虚拟化集群内将不同节点相互连接并以捆绑所有磁盘的方式提供共享存储资源. 如果HCI听上去很简单,因为它在十年前是黑魔法,可现在人人都在做.只不过如今的新热度集中在自助式

超融合架构:主数据存储使命之外

 在主站点上实现的数据存储与工作负载广为人知--而与之对应二级站点则并非如此.也正因此,近年以来二级站点相比主站点,在体系结构方面发展甚缓. 按照惯例,数据存储的主站点与应用程序直接读写.交互数据;工作负载的主站点上则负责程序运行,但并不一定用于支持最终用户.一级或二级应用程序(如ERP.CRM.Microsoft Exchange与SQL Server等)往往都被视为主站点上关键应用程序.在二级站点上,我们一般只会想到数据保护.归档.复制.重复数据删除.压缩.加密.分析报表以及二级应用的测试和

SQL与NoSQL混合数据库正在取得进展

SQL与NoSQL混合数据库解决方案,既兼容诸多SQL应用,同时还能提供NoSQL的可扩展性.Xeround在云中提供此类服务,其中包括免费版本.其他方案还有:具备ODBC/JDBC驱动的Database.com.NuoDB.http://www.aliyun.com/zixun/aggregation/13932.html">Clustrix和VoltDB. Xeround提供的是"数据库作为服务(DB-as-a- Service)",混合了SQL与NoSQL.前端是

甲骨文宣布正式介入存储业务 超融合架构须基于对业务的深刻了解

原文:http://www.dostor.com/article/121038036.html 2015年12月10日,由DOIT传媒.存储在线和易会联合主办的2015中国存储年度峰会在北京盛大开幕.作为中国存储界有影响力的年度行业盛会,峰会以"把握数据经济,重塑商业变革"为主题,吸引了上百位存储界的顶级学者专家.数百位产业精英和企业用户出席.  由DOIT主办的中国存储峰会是中国存储产业界最为隆重的年度大会.十一年来紧贴存储产业发展,丰富地记录了存储产业在各个历史时期的变化发展,已成

从SQL到NoSQL—如何使用表格存储

SQL 还是 NoSQL? NoSQL 是一个用于描述高扩展高性能的非关系数据库的术语. NoSQL 数据库提供的 schemafree 数据模型能够让应用无需预先定义表结构,适应业务的多元化发展,而对超大数据规模和高并发的支持让 NoSQL 数据库得到了广泛的应用. 访问数据库 创建表 写入数据 检索数据 更新数据 删除数据 删除表 SQL 与 NoSQL 数据库对比 关系型数据库 NoSQL 数据库 数据模型 关系模型对数据进行了规范化,严格的定义了表.列.索引.表之间的关系及其他数据库元素

淘宝数据库OceanBase SQL编译器部分 源码阅读--解析SQL语法树

OceanBase是阿里巴巴集团自主研发的可扩展的关系型数据库,实现了跨行跨表的事务,支持数千亿条记录.数百TB数据上的SQL操作.在阿里巴巴集团下,OceanBase数据库支持了多个重要业务的数据存储,包括收藏夹.直通车报表.天猫评价等.截止到2013年4月份,OceanBase线上业务的数据量已经超过一千亿条. 看起来挺厉害的,今天我们来研究下它的源代码.关于OceanBase的架构描述有很多文档,这篇笔记也不打算涉及这些东西,只讨论OceanBase的SQL编译部分的代码. OceanBa