GreenPlum vs MonetDB case

GreenPlum测试环境: 16台主机, 64个segment.

主要对比的是前几天MonetDB vs PostgreSQL vs PostgreSQL+cstore_fdw的场景.

MonetDB的测试环境和测试数据, 测试结果参考

http://blog.163.com/digoal@126/blog/static/163877040201471691955155/

GreenPlum采用列存储, 随机分布, 开启压缩, 压缩级别9.

以下是GreenPlum的测试结果 :

copy方式导入时间：Time: 366566.754 ms , -- 比MonetDB略慢.

(insert into t2 select * from t1)方式导入时间：20922 ms , -- 比monetdb快10秒.

MonetDB :

sql>delete from tt;

50000000 affected row (5.290ms)

sql>insert into tt select * from t1;

50000000 affected row (30.9s)

采用copy方式导入表存储消耗(列存储, 压缩级别9)：10265MB --, 比MonetDB小 1.xG

测试SQL:

1. select count(distinct c1) from t1;

Time: 18442.063 ms , 比MonetDB慢10倍

2. select count(distinct c1) from t2;

Time: 18165.555 ms, 比MonetDB慢10倍

3. select count(*) from (select c1,c11,c21,c31,c41,c51,c60 from t1 group by c1,c11,c21,c31,c41,c51,c60) as t;

Time: 4302.028 ms , 比MonetDB慢2秒

4. select count(*) from (select t1.c1 from t1 join t2 on t1.c2=t2.c3) as t;

Time: 3559.810 ms , 比MonetDB快24.5秒

5. select count(*) from (select t1.c1 from t1 join t2 on t1.c2=t2.c3 join t3 on t1.c3=t3.c5) as t;

Time: 46933.672 ms , 比MonetDB快27秒

6. select count(*) from (select t1.c1 from t1 join t2 on t1.c2=t2.c3 join t3 on t1.c3=t3.c5 join t4 on t3.c5=t4.c6) as t;

Time: 78507.539 ms , 比MonetDB快25秒

7. select count(*) from (select t1.c1 from t1 join t2 on t1.c2=t2.c3 join t3 on t2.c3=t3.c4 join t4 on t3.c4=t4.c5 join t5 on t4.c5=t5.c6) as t;

Time: 125883.171 ms , 速度一致

8. select count(*) from ( select t1.c1 from t1 join t2 on t1.c2=t2.c3 join t3 on t2.c3=t3.c4 join t4 on t3.c4=t4.c5 join t5 on t4.c5=t5.c6 where t1.c60 < 100000 ) as t;

Time: 5640.577 ms , 比MonetDB快7秒

9. select count(*) from (

select t1.c1 from t1

join t2 on t1.c2=t2.c3

join t3 on t2.c3=t3.c4

join t4 on t3.c4=t4.c5

join t5 on t4.c5=t5.c6

join t6 on t5.c5=t6.c6

join t7 on t6.c5=t7.c6

join t8 on t7.c5=t8.c6

join t9 on t8.c5=t9.c6

join t10 on t9.c5=t10.c6

join t11 on t10.c5=t11.c6

join t12 on t11.c5=t12.c6

join t13 on t12.c5=t13.c6

join t14 on t13.c5=t14.c6

join t15 on t14.c5=t15.c6

join t16 on t15.c5=t16.c6

join t17 on t16.c5=t17.c6

) as t;

Time: 658719.790 ms , 比MonetDB慢348秒

10. select count(*) from (

select t1.c1 from t1

join t2 on t1.c2=t2.c3

join t3 on t2.c3=t3.c4

join t4 on t3.c4=t4.c5

join t5 on t4.c5=t5.c6

join t6 on t5.c5=t6.c6

join t7 on t6.c5=t7.c6

join t8 on t7.c5=t8.c6

join t9 on t8.c5=t9.c6

join t10 on t9.c5=t10.c6

join t11 on t10.c5=t11.c6

join t12 on t11.c5=t12.c6

join t13 on t12.c5=t13.c6

join t14 on t13.c5=t14.c6

join t15 on t14.c5=t15.c6

join t16 on t15.c5=t16.c6

join t17 on t16.c5=t17.c6

where t1.c60 < 100000

) as t;

Time: 25521.288 ms , 比MonetDB快11秒

11. select count(*) from (

select t1.c1 from t1

join t2 on t1.c1=t2.c3

join t3 on t2.c3=t3.c4

join t4 on t3.c4=t4.c5

join t5 on t4.c5=t5.c6

join t6 on t5.c5=t6.c6

join t7 on t6.c5=t7.c6

join t8 on t7.c5=t8.c6

join t9 on t8.c5=t9.c6

join t10 on t9.c5=t10.c6

join t11 on t10.c5=t11.c6

join t12 on t11.c5=t12.c6

join t13 on t12.c5=t13.c6

join t14 on t13.c5=t14.c6

join t15 on t14.c5=t15.c6

join t16 on t15.c5=t16.c6

join t17 on t16.c5=t17.c6

) as t;

Time: 692865.584 ms , 比MonetDB慢430秒

12. select count(*) from (

select t1.c1 from t1

join t2 on t1.c2=t2.c3

join t3 on t2.c3=t3.c4

join t4 on t3.c4=t4.c5

join t5 on t4.c5=t5.c6

join t6 on t5.c6=t6.c7

join t7 on t6.c7=t7.c8

join t8 on t7.c8=t8.c9

join t9 on t8.c9=t9.c10

join t10 on t9.c10=t10.c11

join t11 on t10.c11=t11.c12

join t12 on t11.c12=t12.c13

join t13 on t12.c13=t13.c14

join t14 on t13.c14=t14.c15

join t15 on t14.c15=t15.c16

join t16 on t15.c16=t16.c17

join t17 on t16.c17=t17.c18

where t1.c1<10

) as t;

1小时未跑出。

GP做多表关联, 关联结果集比较大时, 性能不如MonetDB.

少量的表关联, 因为机器数量占优, 比MonetDB性能要好.

体积较小的单表查询效率不如MonetDB.

体积较大的单表查询效率可能超过MonetDB, 同样依赖于机器的数量.

什么情况下MonetDB性能会下降明显, 当查询的数据扫描量超过内存时, 例如多列的or条件查询, 当多列的存储空间超过内存时.

或者单列的存储空间超过内存大小时. MonetDB性能会有所下降. 例如这个表364亿条记录, 单列达到了135G, 超过内存(96G).

sql>select count(*) from bt5;

+-------------+

| L1 |

+=============+

| 36400000000 |

+-------------+

1 tuple (41.206ms)

sql>select count(*) from bt5 where id=1;

+------+

| L1 |

+======+

| 728 |

+------+

1 tuple (5m 36s)

对于单列小于内存的场景, MonetDB优势很明显. 以96G的内存为例, 存INT列的话, 可以存256亿条记录.

[参考]

1. http://blog.163.com/digoal@126/blog/static/163877040201471691955155/

时间： 2024-09-12 20:49:12

GreenPlum vs MonetDB case的相关文章

Greenplum 模糊查询实践

标签 PostgreSQL , Greenplum , orafunc , 阿里云HybridDB for PostgreSQL , reverse , like , 模糊查询背景文本搜索的需求分为: 1.全匹配,如: select * from table where column = 'xxxx'; 2.后模糊,如: select * from table where column like 'xxxx%'; 3.前模糊,如: select * from table where colu

一个简单算法可以帮助物联网,金融用户节约98%的数据存储成本 (PostgreSQL,Greenplum帮你做到)

PostgreSQL简直是工业界和学术界的完美结合,怎么说呢?下面娓娓道来.前段时间为大家分享了物联网行业分析以及PostgreSQL 为物联网场景量身定制的特性介绍.https://yq.aliyun.com/articles/18034https://yq.aliyun.com/edu/lesson/67今天再给大家分享一枚重磅炸弹,PostgreSQL 帮助物联网用户降低98%的存储成本.这是个什么概念呢?举个例子,你原来要花100万买存储才能存下的数据,现在只需要花2万就能搞定.下面我

PostgreSQL distinct 与 Greenplum distinct 的实现与优化

标签 PostgreSQL , distinct , 多distinct , groupagg , hashagg , sort , hyperloglog , 估值背景求distinct是业务的一个普遍需求,例如每天有多少用户,每个省份有多少用户,每天有多少类目的用户等. select date,count(dinstinct user) from tbl group by date; select date, province, count(distinct user) from tbl

some limits when we use monetdb

使用monetdb时的一些注意事项, 1. m-funnel的返回结果集不能超过80K. man monetdbd MULTIPLEX-FUNNELS Monetdbd implements multiplex-funnel capabilities. As the name suggests two techniques are combined, the mul- tiplexer and the funnel. The funnel capability limits the acces

Greenplum数据增量导入的唯一值自增处理

阿里云的Greenplum(以下简称GP)已经公测了一段时间,陆续接到很多用户的反馈.其中一些使用上的问题比较有趣,在这里与大家分享一下. 其中一个case是字段的唯一键和自增值问题.在导入GP之前,某id字段已经保证了唯一性,但在此次导入之后,可能会有更多的导入,这个时候希望GP在原来最大id值的基础上自增. GP是在PostgreSQL(以下简称PG)上开发而来,其操作基本沿用.在PG上,实现自增的方法是通过serial: postgres=> create table tuniq(id s

MonetDB remote database forward method : proxy or redirect

MonetDB一个比较好用的功能, 共享数据库. 也就是说, monetdb可以通过共享数据库的方式, 让客户端连接一个节点就可以连接到其他节点. 如图 : 例如我在两台服务器上分别启动了一个monetdbd. 分别有一个数据库都名为test. 172.16.3.150 172.16.3.221 那么只要配置了数据库的shared=yes或者其他tag, 并且启动monetdbd时配置了discovery=yes, monetdb就可以在广播域发现它. 默认都是yes的. 如果不是, 可以

Greenplum,HAWQ interval parser带来的问题 - TPCH 测试注意啦

Greenplum,HAWQ interval parser带来的问题 - TPCH 测试注意啦作者 digoal 日期 2016-10-11 标签 Greenplum , PostgreSQL , interval , parser 背景 interval是用来表达时间间隔的数据类型,比如1年,或者1分钟,或者1天零多少小时分钟等. postgres=# select interval '100 year 2 month 1 day 1:00:01.11'; interval -------

如何检测、清理Greenplum垃圾 - 阿里云HybridDB for PG最佳实践

标签 PostgreSQL , Greenplum , HDB for PG 背景 Greenplum通过多版本支持数据的删除和更新的并发和回滚,在删除数据时(使用DELETE删除),对记录的头部xmax值进行标记.在删除记录时,对记录的头部进行标记,同时插入新的版本. 这一就会导致一个问题,如果用户经常删除和插入或更新数据,表和索引都会膨胀. PostgreSQL是通过HOT技术以及autovacuum来避免或减少垃圾的.但是Greenplum没有自动回收的worker进程,所以需要人为的触发

《Greenplum企业应用实战》一第3章 Greenplum实战3.1　历史拉链表

第3章 Greenplum实战从本章开始我们结合实际需求,阐述一下日常项目开发中如何结合Greenplum的特性进行高效的开发,展现出Greenplum在海量数据分析中的优势. 本章将介绍两个完整的例子:数据仓库拉链记历史和网页浏览日志分析.在这两个例子中,会结合Greenplum的一些特性加以描述,之后会介绍使用Greenplum中要注意的一些特性,以及这些特性对性能的影响. 3.1 历史拉链表数据仓库是一个面向主题的.集成的.相对稳定的.反映历史变化的数据集合,用于支持管理决策.由于需要

猜你喜欢

从打游戏的显卡，到科学先锋，一篇文章读懂异构计算

阿里云异构计算揭秘,今天下午(9月12日)14:00直播,请点击:阿里云异构计算揭秘今天给大家科普一个新词,异构计算. 听起来好神秘,是不是跟异形,外星人有关系? 其实所谓的通用计算,就是用CPU算 ...

Slave_SQL_Running: No mysql同步故障解决方法

原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://kerry.blog.51cto.com/172631/277414 Slave_ ...

IIS详细错误代码以及解释

当用户试图通过 HTTP 或文件传输协议 (FTP) 访问一台正在运行 Internet 信息服务 (IIS) 的服务器上的内容时,IIS 返回一个表示该请求的状态的数字代码.该状态代码记录在 IIS ...

使用查询改写提高查询性能

性能无需改变SQL查询就可以大幅提高查询性能. 你是否为等待你的查询返回结果而感到疲惫?你是否已经为增强索引和调优SQL而感到疲惫,但仍然不能提高查询性能?那么,你是否已经考虑创建物化视图?有了物化 ...

IIS又发现10个安全漏洞服务器门户大开

iis|安全|安全漏洞|服务器微软于4月10日宣布,该公司的Web服务器软件"Internet Information Server/Services(IIS)"中发现了10种新 ...

SEO实习报告之内部结构与外链的建设小议

在SEO实习的2个月中,在早前已经选定网站发展定位及目标群体的情况下我每一天都在努力学习并操作SEO,优化相关关键词,通过优化网站内部和外部各方面的内容提升网站的排名进而触发更多的相关流量,以此达 ...

避免“飞来横祸”的降权博客养站需慎行

近期,二进制曾优化一年多的网站被降权,半个月内几十个关键字掉出首页.对于降权或许是站长圈再正常不过的现象了,毕竟做SEO恐怕除去搜索引擎本身,都难免遇降权.但怪就怪在网站3万的外链仍旧遭遇降权,且是一 ...

生成目录树结构的类

本程序有两文件test.asp 和tree.asp 还有一些图标文件 1.test.asp 调用类生成树代码如下 <%@ Language=VBScript %> <html> ...

Windows XP中网络基础知识简介

网络就是将相同或不同地理位置的多台计算机通过连线和各种外围设备连接在一起,以实现网络中各计算机之间的信息交流及资源共享的系统.网络根据连接范围的大小可分为广域网和局域网.本章以局域网为主要介绍对象. ...

如何解决IIS配置401错误

"IIS配置401错误"完美解决方案 1.错误号401.1症状:HTTP 错误 401.1 - 未经授权:访问由于凭据无效被拒绝.分析:由于用户匿名访问使用的账号(默认是IUSR_ ...

人工神经网络(Artificial Neural Netwroks)笔记-delta规则增量学习

delta规则增量学习 Wij(t+1)=Wij(t)+α(Yj-Aj(t))Oi(t) 式中 Wij(t+1).Wij(t) 分别表示神经元ANi到ANj的联接在时刻t+1和时刻t的强度,Oi(t) ...

电信光纤猫的控制台登录密码如何修改

1.通过192.168.1.1地址及默认用户名密码登陆电信光纤猫. 2.成功登陆后,请点击导航菜单中的"管理". 3.默认显示的用户管理,请根据提示填写旧密码.新密码.确认密码 ...

CCF 大数据学术会议的企业论坛上，八位嘉宾们都在关注怎样的产业应用问题？

10 月 13 日至 15 日,第五届 CCF 大数据学术会议(CCF BigData 2017)于深圳举行.本届会议由中国计算机学会主办,中国计算机学会大数据专家委员会和深圳大学联合举办,雷锋网(公 ...

ython t window 2019-win上PythonQt库如何建立

问题描述 win上PythonQt库如何建立工程中依赖项已经有Qt和Python的库,编译PythonQt时还会出现>LPythonQt.obj : error LNK2019: 无法解析的外 ...

传智播客培训2.21 XML编程

先看一个book.xml文件: <?xml version="1.0" encoding="utf-8"?> <书架> & ...

开源网络备份软件bacula的安装指南

风信网(ithov.com)原创文章:我们将从以下三个方面对开源网络备份软件bacula进行详细的安装说明,包括:bacula的几种网络备份拓扑,编译与安装bacula及初始化MySQL数据库. 1. ...

utf-8-关于PHP截取中英文字符串的几个问题

问题描述关于PHP截取中英文字符串的几个问题 function substr_len($str, $len, $charset='utf-8'){ $len = intval($len); if(! ...

c语言-BP算法的C语言实现，代码个人测试正确，但是wrong answer，求大神指点

问题描述 BP算法的C语言实现,代码个人测试正确, 但是wrong answer, 求大神指点 #include #include #include #include #include //#incl ...

淘宝游戏激活码市场过亿专家提醒淘号需慎重

10月27日消息,淘宝网上商城某箱包业务实现销售额过亿的消息,近日再度引发外界对电子商务市场的关注.与此同时,记者在淘宝搜索时还发现,在淘宝网上仍然存在着大量不为人所知但却市场规模庞大的领域,网游激活 ...

成都大数据急需人才培养基地落地天府软件园

2016年3月17日,成都科多大数据科技有限公司(以下简称科多大数据)与四川鼎育软件职业培训学校(以下简称鼎育教育)正式签署了<大数据人才培养战略合作协议>,双方接下来就大数据人才培养.大 ...

《Stata统计分析与应用（第2版）》一1.2 Stata窗口及基本操作

1.2 Stata窗口及基本操作本节将介绍Stata的窗口组成和基本操作,读者在这里将逐渐熟悉Stata的操作界面与方法. 1.2.1 Stata窗口说明 Stata软件安装完成后,运行Stata, ...

SaaS繁荣是资本效应还是市场需求？

中国互联网协会常务副理事长高新民在08年互联网大会上指出:"互联网新兴服务业态是利用互联网的最新技术,提供一种创新性的服务业,核心特征是创新,服务内容更加新颖,附加值更高." 08 ...

spring 注入问题获取值为null

问题描述 spring 注入问题获取值为null public interface UserService { void add(User user); } @Service public clas ...

c语言-在使用 TI 的 i2c 时遇到，数据通过i2c写不进去，是address出错了吗

问题描述在使用 TI 的 i2c 时遇到,数据通过i2c写不进去,是address出错了吗希望有做过这方面的人帮个忙! 当我使用i2c,在借用TI协议栈里的函数时候,总是会进入 len = 0,这 ...

中国动漫的成长之路

从上到下的急功近利,正在使整个中国的动漫业陷入死结,而无法自拔. 然而,沉寂数年的中国动漫业,却在一日之间忽如一夜春风来,开始了新的旅程. 杭州萧山的第六届"中国国际动漫节"主会场 ...

Illustrator设计写实笔筒图标绘制教程

给各位Illustrator软件的使用者们来详细的解析分享一下设计写实笔筒图标的绘制教程. 教程分享: 1.首先,让我们打开一个新的文档.要打开一个新的文档.转到文件">"新 ...

VBS教程：方法-WriteLine 方法_vbs

WriteLine 方法向 TextStream 文件写入指定字符串和新行字符. object.WriteLine([string]) 参数 object 必选项.应为 TextStream 对象的 ...

Node.js 数据加密传输浅析_node.js

前言数据加密传输,大家经常接触几个方式一个是密文传输,一个明文传输密文传输,就是用密钥对数据加密,使用公钥对数据解密,传输的通道可以是https的也可以是http的.明文传输,前提是建立一个安全的传 ...

帮找一下问什么wrong answer

问题描述帮找一下问什么wrong answer Problem Description Given a sequence a[1],a[2],a[3]......a[n], your job is ...

手机下单工程师上门？东软与神州光大要造安全圈 “滴滴”！

打造安全圈的"滴滴" 据记者了解,这个合作平台的模式与大家熟知的"滴滴打车"商务模式有相似的地方. 首先由东软网络安全技术服务团队对工程师进行培训,通过内部技能 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.029 s.