TDW与PostgreSQL数据互访问功能

  一、开源项目TDW介绍

  腾讯分布式">数据仓库 ( Tencent distributed Data Warehouse,以下简称TDW) 是腾讯工程技术事业群数据平台部基于开源软件研发的大数据处理平台,它基于Hadoop、Hive、PostgreSQL之上进行研发,并在开源软件的基础上做了大量的定制和优化。目前TDW是腾讯内部规模最大的分布式系统,集中了腾讯内部各个产品的数据,为腾讯的各个产品提供海量数据存储和分析服务,包括数据挖掘、产品报表、经营分析等服务。

  TDW作为腾讯首批对外开源软件,代码已经托管到C++SDN CODE平台。

  二、TDW与PostgreSQL互访问功能:使TDW功能更上一层楼

  TDW作为一个离线数据分析系统,在处理海量数据方面,通过并行计算,有很好的性能优势。但是我们知道,想用一个大而全的系统解决所有问题一般也是不现实的,同样,TDW也有它的劣势,比如对小数据处理性能低,update/delete性能差、接口不丰富等。

  因此,我们引入一个强大的开源数据库PostgreSQL,并对其做一些功能扩展,使之有访问TDW数据的能力;同时我们在TDW中开发了一种新的存储引擎,我们称之为pgdata存储引擎,使得TDW具备读写PostgreSQL中的数据的能力。

  TDW与PostgreSQL互访问功能的实现,对TDW是一个强有力的补充,这些主要体现在如下3点:

  1. 弥补TDW接口不丰富的短板

  TDW缺乏标准化的JDBC/ODBC,编程接口也不丰富,而PostgreSQL有社区强大的力量,提供了JDBC/ODBC、Shell、C/C++、C#、Python、Perl等各种语言的接口,用户通过这些丰富的接口和我们开发的PostgreSQL的TDW桥接工具tdwlink,访问TDW中的数据。

  2. 弥补TDW小数据分析效率底的短板

  TDW在海量数据处理时,可以发挥它并行执行的优势。但是对于小数据分析,它的性能反而不如传统的DB。使用PostgreSQL,对于10GB以内的数据分析,可以获得更好的性能和时间响应,一般可以在秒级返回结果,相比TDW分钟级的响应,tPG在这种场景下更有优势。

  3. 作为TDW的pgdata存储引擎,弥补TDW update/delete效率底下的短板

  TDW作为数据仓库系统,对于记录级的update/delete支持不是很好。在TDW中记录级的update/delete,会导致整个表的重写,也就是说,即使delete一条数据,也会导致整个表重写一遍,耗费大量系统资源。而tPG作为传统数据库,记录级的update和delete效率非常高。

  PostgreSQL系统在TDW生态圈中的位置如下图所示,tPG是我们对扩充之后的PostgreSQL的一个叫法:

  下面我们分两个部分对TDW与PostgreSQL的互访问功能做一个介绍,也即是pgdata存储引擎以及tdwlink功能。

  原文链接:http://code.csdn.net/news/2820079

时间: 2024-10-28 11:02:50

TDW与PostgreSQL数据互访问功能的相关文章

PostgreSQL数据保留窗口功能的使用

标签 PostgreSQL , 保留窗口 , ttl , stream , continuous view , pipelinedb 背景 类似mongodb的rotate collate(设置表的上限容量.上限记录数,持续写入,自动覆盖最老的记录),PostgreSQL通过pipelinedb也能实现类似的功能. 此类功能非常适合日志数据,无需维护成本,持续写入,自动覆盖最老的记录. pipelinedb计划会在2017-07月份转换为postgresql插件,届时使用会更加便利. 如果不使用

PostgreSQL 10.0 preview 功能增强 - 增加access method CHECK接口amcheck

标签 PostgreSQL , 10.0 , amcheck , 逻辑一致性检测 , 物理存储检测 背景 一些高端存储.包括ZFS文件系统,在使用了RAID后,有块检测和异常块的修复功能. 对于数据库来说,数据的可靠性是非常重要的指标,例如: 1. 写进入是什么,读出来就应该是什么. 2. 当操作系统的collate发生变化时,索引的顺序可能与实际的collate顺序不匹配.造成不稳定现象. 3. 数据块partial write,可能导致数据损坏. 4. 内存页异常,使用到某些异常页时,可能带

PostgreSQL flashback(闪回) 功能实现与介绍

标签 PostgreSQL , 脏读 , 事务 , flashback , 闪回 , drop , truncate , dml 背景 闪回的需求往往是救命的需求,因为通常情况下数据库正常运行是不需要闪回的,往往是出现了误操作,被攻击,被注入后,数据库的数据被删除或恶意纂改并且纂改的事务已提交,也就是说纂改已经被持久化了. 这种情况下需要闪回来救命,回到被破坏前的状态. 闪回的目标分为两种: DML闪回和DDL闪回. DML闪回指对INSET, UPDATE, DELETE操作的闪回.DDL闪回

PostgreSQL 10.0 preview 功能增强 - 后台运行(pg_background)

标签 PostgreSQL , 10.0 , 后台运行 , pg_background_launch , pg_background_result , pg_background_detach , pg_background 背景 当用户在管理数据库时,如果要在交互式界面跑一些QUERY,但是不知道QUERY要运行多久,担心网络问题或者其他问题导致终端断开,QUERY执行情况不明的话.就需要后台运行这个功能了. 后台运行在LINUX中也很常见,比如 nohup ls -la / >/tmp/re

PostgreSQL 10.0 preview 功能增强 - 逻辑订阅端 控制参数解说

标签 PostgreSQL , 10.0 , 逻辑订阅 背景 PostgreSQL 逻辑订阅相关文章请参考 <PostgreSQL 10.0 preview 变化 - 逻辑复制pg_hba.conf变化,不再使用replication条目> <PostgreSQL 10.0 preview 功能增强 - 备库支持逻辑订阅,订阅支持主备漂移了> <PostgreSQL 10.0 preview 功能增强 - 逻辑复制支持并行COPY初始化数据> <PostgreSQ

eclipse-谁知道用JSP展现数据库里面数据导入导出功能怎样写的代码?

问题描述 谁知道用JSP展现数据库里面数据导入导出功能怎样写的代码? 做数据导出老导不出数据,我想知道是不是数据库方法错误,谁知道用JSP展现数据库里面数据导入导出功能怎样写的代码? 解决方案 导入导出EXCEL数据http://yangbobestone.iteye.com/blog/1123458

WPS For Linux Alpha 11新功能:增数据透视表功能

WPS国际社区网站http://wps-community.org/上线了,链接也已集成到国际版WPS的帮助菜单中,欢迎大家访问!关于WPS中文版在线模板无法登陆的问题,主要是由于流程上与轻办公绑定较紧,而Linux版本暂未移植轻办公导致,我们将在下个版本解决登陆问题. WPS For Linux Alpha 11 发行注记 (2013-07-10) 公共 修复命令行下传不完整的文件路径参数导致崩溃的问题 修复文字和演示在多用环境下无法创建多个程序实例的问题 修复无法在不同语言区域下识别字体的别

Windows 2008数据执行保护功能应用

Internet中的一些网络病毒或木马,时常会通过安装在Win2008系统中的一些应用程序漏洞,来对本地计算机系统进行非法攻击;为了让应用程序连接网络更加安全,我们可以利用Win2008系统自带的数据执行保护功能来保护目标应用程序,下面就是具体的实现步骤: 首先在Win2008系统桌面中,用鼠标右键单击"计算机"图标,从弹出的快捷菜单中点选"属性"命令,打开对应系统的属性设置窗口,在该设置窗口的左侧位置处,点选"高级系统设置"按钮,进入Win20

Excel 2013的推荐数据透视表功能

Excel表格是让很多办公室白领都头痛的软件,不过Excel 2013现在变得很聪明,比如说"推荐数据透视表"功能,Excel会汇总您的数据并提供各种数据透视表选项的预览,让您可以选择其中一种最能体现您的观点的数据透视表,而不必重新另外编写表格. 推荐图表 图文并茂的表格最精美也最难处理,不过Excel 2013加入了"智能推荐图表"功能,会自动为你选定的表格制定不同形式的图表,你需要做的只是从中选择合适的一种即可. 一键发布到社交网络 制作好的Excel图表,可以