专访周金可:我们更倾向于Greenplum来解决数据倾斜的问题

周金可,就职于听云,维护MySQL和GreenPlum的正常运行,以及调研适合听云业务场景的数据库技术方案。

听云周金可

 

9月24日,周金可将参加在北京举办的线下活动,并做主题为《GreenPlum在听云大数据实时分析的实践》的分享。值此,他分享了PG、工作上的一些经历和经验。

9月24日开源数据库企业应用实践PostgreSQL、Greenplum专场培训,点击这里>>>免费报名

 

正文:

 

周金可刚参加工作时是做系统运维的,后来慢慢接触了各种数据库,开始对数据库感兴趣,经过一段时间的积累后转向了DBA。

 

“在我加入听云时,恰好是业务快速增长的阶段,后端我们的应用以及数据库经受了比较大的考验。去年大多数时间是在做扩容,我们的MySQL集群由最开始的数台实例扩展到现在的数百台实例。”他经历了听云业务量的爆发式增长。

 

而正是这种增长,让周金可和PG有了亲密接触:“某个模块的单表数据量达百亿级,MySQL Shared方式已经无法保证查询性能,所以又采用了GreenPlum MPP的方案来解决性能问题。”

“整个过程中分拆扩容的工作量是比较大的。而且在数据量巨大的情况下,MySQL Shared造成的数据倾斜问题给我们造成了比较大的困扰。目前我们对MySQL的中间件做了一次定制,支持将指定的某个用户的数据路由到一个单独的实例上,然后垂直扩展该实例的配置。但现在我们更倾向于Greenplum的方案,合理的涉及distribution
key是可以完全避免数据倾斜的问题。”

 

因此,他本次分享的就是GreenPlum在听云大数据实时分析的实践,内容涉及具体应用场景GreenPlum选型,以及迁移至GreenPlum架构后与原来MySQL架构的性能对比。

 

除此之外,周金可也谈了自己为什么喜欢Golang的编程风格、听云内部的数据库管理平台的经历,以及对上段时间Uber从PG切换为MySQL一事的看法。

 

更为具体的内容,请查看以下完整采访:

 

 

周金可:我叫周金可,目前就职于听云。听云是一家在APM领域深耕10年的公司。我是在15年初加入听云,有幸经历了听云业务量的爆发式增长。

 

听云后端当前的数据库架构主要是MySQL分布式集群,也有一部分数据是采用GreenPlum的方案。而我们即将发布的CDN
Controller产品后端,则采用的是Postgresql+Citus分布式方案。

 

目前主要的工作内容就是维护MySQL和GreenPlum的正常运行,以及调研适合听云业务场景的数据库技术方案。

 

 

周金可:刚参加工作的时候是做系统运维的,后来慢慢的接触了各种数据库,开始对数据库感兴趣,经过一段时间的积累后转向了DBA。

 

在我加入听云时,恰好是听云的业务快速增长的阶段,后端我们的应用以及数据库经受了比较大的考验,去年大多数时间是在做扩容,我们的MySQL集群由最开始的数台实例扩展到现在的数百台实例。

 

今年我们主要是做了一些优化的工作,比如使用ToKuDB存储引擎替换线上MySQL实例的InnoDB实例,大幅压缩数据并提升性能。将原来放在MySQL上的一部分业务数据迁移到Greenplum上,查询性能提升几百倍。当然这只是在我们的场景中,单节点MySQL跟Greenplum集群的对比,MySQL还是很优秀的DB。

 

 

周金可:Golang语法比Python简单,编程风格趋于脚本化但功能比shell强大很多,原生的并发变成模型和跨平台特性让我觉得Golang可以作为日常运维工作中的一把利剑。

 

数据库集群规模比较大,不可能每天对数百节点做人肉巡检,后来接触到了Golang的Web框架Beego,所以决定写一个数据库管理平台。这个平台会对MySQL集群中数百节点的数据量、qps、tps、慢sql等指标进行收集,然后在页面上以曲线图的形式展现,还会有一些汇总的报表数据,比如每月每个业务库的数据增量情况以及每天慢sql数量top12的实例列表。对慢sql做分析汇总,支持查看慢sql执行计划。

 

数据查询提取的窗口,支持数据的查询并以excel格式导出。还有一些我们自动维护表分区的一些监控。

 

 

周金可:听云数据库经历了由MySQL单机到MySQL分库分表分布式架构的演变,后来数据量继续膨胀,又使用压缩引擎对数据进行压缩。某个模块的单表数据量达百亿级,MySQL Shared方式已经无法保证查询性能,所以又采用了GreenPlum MPP的方案来解决性能问题。

 

整个过程中分拆扩容的工作量是比较大的。而且在数据量巨大的情况下,MySQL
Shared造成的数据倾斜问题给我们造成了比较大的困扰。目前我们对MySQL的中间件做了一次定制,支持将指定的某个用户的数据路由到一个单独的实例上,然后垂直扩展该实例的配置。但现在我们更倾向于Greenplum的方案,合理的涉及distribution
key是可以完全避免数据倾斜的问题。

 

 

周金可:接触Greenplum和PG有几个月的时间了,目前GreenPlum刚刚上生产,在前期调研的时候积累了一些使用场景的经验,对于GPDB维护上的经验,正在积累的过程中。

 

 

周金可:我们一个新产品后端DB使用到postgresql新版本的jsonb特性,兼顾性能和运维的成本考虑。目前来看,除了PG暂时没有可替代的方案,所以我们到时候会采用citus+postgresql的方案。

 

 

周金可:主要分享的是GreenPlum在听云大数据实时分析的实践,会从分享一下我们具体应用场景GreenPlum选型,以及迁移至GreenPlum架构后与原来MySQL架构的性能对比。

 

Postgresql发展还是挺迅速的,而且国内越来越多的公司也开始尝试使用Postgresql。PG的一些特性也确实很多吸引力,希望越来越多的使用者分享使用经验,让PG社区变得越来越好。

 

                                                                                                  

周金可:Uber的做法可能会对大众在DB的选型上产生一些误导,互联网公司在不同的阶段随着架构的演变会有技术的迭代,往往都会寻求新的技术方案来解决当下的一些痛点问题,所以还是那句话适合自己的就是最好的。

 

MySQL有可能更适合Uber现阶段的业务场景,据说Uber之前曾从MySQL迁移到PG,所以也很难说不是Uber DBA的个人情怀。

 

但这篇文章带来的影响还是很糟糕的。

时间: 2024-10-03 07:39:23

专访周金可:我们更倾向于Greenplum来解决数据倾斜的问题的相关文章

19e的设想则更倾向于打造一个开放的平台

家住武汉的刘文近来忽然发现了家附近的打印店有了"新功能".平时只会在需要打印时光顾,但是现在打印店还有了更多的服务.在打印店,可以缴电话费.还信用卡账单,买机票,甚至是缴纳交通罚款.这无疑增加了他光顾打印店的频率,"在此之前只是部分连锁便利店可以代缴水电费". 这其实是件双赢的事儿.对于刘文而言,在社区范围内可以解决越来越多的实际要求:对于打印店而言,不仅可以从多种增值服务中获得返点,增加利润,打印店摇身变成社区小型生活服务中心,也恰到好处地增加了消费者的光顾频率.

尼尔森:Android用户更倾向于点击广告

北京时间9月14日早间消息,据国外媒体报道,市场研究公司尼尔森调查显示,苹果iPhone用户在苹果应用商店下载的应用数已达谷歌Android Market及黑莓App World的两倍. 苹果用户下载的应用中,收费应用与免费应用的数量比为1:2:而Android和黑莓用户各自下载应用中,收费应用与免费应用的数量比为1:3.5. 但尽管Android用户较不愿意为应用支付费用,但他们更倾向于点击应用中的广告,这同样也为开发者带来利润.根据调查,47%的iPhone用户表示根本不会点击应用的广告,而

玛萨玛索孙弘:融资更倾向于VC保持独立发展

7月16日,针对苏宁洽购玛萨玛索一事,玛萨玛索CEO孙弘今日表示,其更倾向于接受VC类企业的融资,同时会保证玛萨玛索品牌的独立发展. 玛萨玛索CEO孙弘 今日,有知情人士向搜狐IT表示,玛萨玛索与苏宁达成收购初步意向,已经进入并购的尽职调查阶段.不过,孙弘则予以否认. 他表示,玛萨玛索更倾向于接受VC类企业的融资. "我们跟许多VC都有过沟通,跟谁(进行资本合作)都是有可能的,但在最后CLOSE前,不会对外披露."孙弘称. 今天早些时候,玛萨玛索高层在接受其他媒体采访时曾表示,在第二轮

近6成的市民更倾向于选择能效高的变频产品

备受关注的十一.中秋双节消费提早被搬上了日程,记者昨日从国美家电连锁台东店了解到,因为今年国庆节"巧遇"中秋节,众多市民已经提前做好了选购家电的计划,不少市民还是全家倾巢出动来选家电."一些家庭主要是为了假期出游,所以把选购家电的计划提前了,还有一些家庭是趁着新房装修提前到卖场来预定产品,想要假期期间就能很快安装好",国美家电销售负责人表示.记者在走访台东其他家电连锁店时也遇到了同样的情况,特别是在各大空调品牌专柜,由于节能补贴政策的刺激,将近6成的市民更倾向于选择

俄罗斯最大电商Ulmart更倾向于在香港上市

摘要: 作为俄罗斯最大的 电子商务 企业,Ulmart为自己在接下来的18个月内设立了明确的扩张方向,SKU(库存量单位)数量将从6.3万提升至8.5万,而在下一个五年内争取将年销售额增加到100亿-15 作为俄罗斯最大的 电子商务 企业,Ulmart为自己在接下来的18个月内设立了明确的扩张方向,SKU(库存量单位)数量将从6.3万提升至8.5万,而在下一个五年内争取将年销售额增加到100亿-150亿美元.当前Ulmart已经在筹备明年的IPO计划,上市地点将在伦敦.纽约.香港之间进行选择.该

“开发者联盟”不仅是行业的沟通渠道,更应该是开发者解决具体问题的帮助者

我国具有行业协会性质的开发者联盟还基本空白,对开发者来说,他们需要的是这样的开发者联盟:它不仅是行业的沟通渠道,更应该是开发者解决具体问题的帮助者. 在最近的2012移动互联网创新大会上,诸如创新工场合伙人汪华.逛淘宝CEO侯迅等相关开发者们坐在一起,常常谈论的话题离不开三点,创新.用户体验与商业模式. 创新是一个公司.一个产品的核心竞争力,当有人谈到如何应对互联网大佬们对这一创新的切入,开发者们往往分析的结果是:一要低调行事,不要过分炫耀自己的创新:二要速度快,一旦确定创新方向,就要尽快开发产

一周综述:2014将成云计算与大数据的盈利转折点

随着亚马逊AWS在中国的落地以及杭州云计算数据中心的落地,国内外的云计算领域正在朝着一个蒸蒸日上的势头前进,随着中国企业家们刚开始对于云计算的质疑,到初步探索,再到实际投入,我们已经能够看到基于"智慧"的多种云计算实体项目在国内落地,随着政府以及企业家们的多方投入,云计算可能将成为2014最大的看点. 总投资40亿的云计算项目落户建德 新闻回顾:浙商回归又有好消息-又一朵科技之"云"落户杭州.日前,浙江云快传科技有限公司投资40亿元的云计算数据中心项目正式落户建德.

谷歌站长工具提供更精准的反向链接数据

现有的谷歌反向链接工具提供了大约10万条可查询的反向链接数据,而且这些链接都是按照字母顺序排序的,这意味着站长获得的网站反链并不全面,原因是这些链接数据偏重于其字母顺序排在前面的链接. 而刚刚谷歌站长工具小组Yinnon Haviv在博客上称:将为站长提供更全面的反向链接数据,查询的反链会更广泛,且更为分散,以帮助站长拒绝垃圾外链. 这些反向链接会以均匀抽取的方式展示出来,此外,还能查看到来自不同顶级域名以及其他域名的示例链接,在站长清理垃圾外链时能够更轻松地锁定问题所在,做到有的放矢. 注意:

如何更好的使用大数据?

大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据.大数据在互联网行业指的是这样一种现象:互联网公司在日常运营中生成.累积的用户网络行为数据. 大数据的特征:数据量大(Volume):类型繁多(Variety):价值密度低(Value):速度快时效高(Velocity). 大家看过的例子:啤酒与尿布.沃尔玛的员工发现啤酒和尿布经常放在一个购物篮里面,调查发现爸爸经常在买尿布的时候顺带买啤酒,所以沃尔玛把啤酒和尿布放在同一区域.这个例子表明:两种商品之间是有相互联系的,