RocketMQ大数据畅想

刚刚过去的双十一,阿里自主研发的消息中间件RocketMQ,充分展现了它的低延迟特性,大部分消息请求落在2ms内,慢请求也都落在20ms内,这无疑给追求快速响应的在线交易系统(OLTP)带去了福音。
也是在今年11月份,RocketMQ进入Apache孵化。这款最初设计来为淘宝交易系统异步解耦、削峰填谷的消息中间件,开始走出国门,为世界上的用户提供服务。自然地,RocketMQ将来不仅仅只服务于在线系统,对于离线或半离线系统,尤其是大数据领域,RocketMQ也将为其绽放自己的光彩。

Kafka大数据的杀手锏

谈到大数据领域内的消息传输,则绕不开Kafka。这款为大数据而生的消息中间件,以其百万级TPS的吞吐量名声大噪,迅速成为大数据领域的宠儿,在数据采集、传输、存储的过程中发挥着举足轻重的作用,被LinkedIn,Uber, Twitter, Netflix等大公司所采纳,而storm,spark,flink等大数据流处理或批处理平台都有Kafka的相关插件支持。
那么,Kafka的百万级TPS是如何做到的呢?
有很多相关的分析,比如异步IO,PageCache,异步刷盘,消费过程零拷贝,Batch等,这些都对,但是没有一个直观的说明,这众多因素中,哪一个才是杀手锏呢?
笔者对这个问题进行了一些探究,在揭晓之前,请看下图:

注:一台物理机部署Kafka,另一台物理机施加压力,每个producer异步发送,异步统计结果;本文所涉及的机器配置都是24核48G内存SSD盘

从上图可以看出,当单个消息体为50字节时,kafka单机的吞吐量确实表现出色,能达到百万级。可是当单个消息体为5k字节时,TPS极速下降,只有大约3万多,少了两个数量级。
对此,可能有人会说那是因为网卡打满了,还有就是因为消息体变大,每次能batch的数量变少了,导致整体TPS下降。
都有可能,笔者测试时网卡虽然没有打满,却确实是负载比较高了。因此,为了排除因素,笔者还做了另外一个测试如下:

上图可以清晰地看出,50字节时,Kafka no batch(batch size设为1)时的吞吐量只有15万多,只有启用batch时的十分之一,而RocketMQ也可以很轻松地达到这个水平。
至此,可以直观地充分说明,Kafka达到百万级TPS的杀手锏就是batch
batch, 简单说就是把多个消息打包一次性发过去,对于在线交易系统来说,这通常不是一个好的选择,会导致消息大量丢失或者大量重复,延迟也会加大。但对于大数据领域来说,由于大部分都是离线半离线的计算,对数据可靠性要求没有那么高,但追求高吞吐量。Kafka为适应大数据,选择了batch,因此,赢得了大数据的欢迎。

RocketMQ大数据的无限潜力

到这里,自然会有一个疑问,如果把batch特性用到RocketMQ中,效果会如何呢?
按照上面的结论进行推测,batch特性势必也能大大提高RocketMQ的吞吐量。但如果要实践证明,需要做一些工作。
为了直观地证明batch对于RocketMQ的功效,笔者在Kafka Broker做了一层代理,大致结构图如下:

Kafka Broker收到Kafka Client的Batch Data后,不存储在本地,而是把消息转发到RocketMQ,等待RocketMQ返回结果后,再返回给Kafka Client。
笔者用一台物理机部署Kafka Broker作为Proxy,同时用另一台同样配置的物理机部署RocketMQ作为存储,然后用另一台物理机来对Proxy进行施加压力,结果如下图:

这个结果与上面关于Kafka的结果相互印证,既证明了Kakfa大数据的杀手锏在于batch,同时也展现了RocketMQ在大数据领域的无限潜力,并不逊色于Kafka。

Proxy与RocketMQ Kernel

RocketMQ最初是为交易系统而生,现在也不会忘记这一初心,但其也绝不会固步自封。面对越来越多的来自各个领域的用户,他们有着各自不一样的复杂应用场景,这给RocketMQ带来了挑战,也带来了机遇。未来的RocketMQ会继续保持初心,维护自己Kernel的本色,但也会增加一些外围功能,以适应各种不同的场景,如面向大数据的Kakfa Proxy,面向物联网的MQTT,面向REST的Http Proxy。

最后,这一切只是开始,更多的想象空间,需要大家一起来创造。

时间: 2024-12-24 11:35:56

RocketMQ大数据畅想的相关文章

河南获批建国家级大数据综合试验区 拥抱大数据畅想“云生活”

河南省成为第二批获批建设国家级大数据综合试验区的省份之一后,"云计算.大数据"成为近日河南各界热议的话题.11月9日,河南省第三届互联网大会在郑州开幕,本次大会聚集了一大批互联网学术界.企业界有重要影响力的知名学者和优秀企业家,大家就云计算.大数据.网络经济.网络安全等热点话题进行了深入交流研讨. 河南将迎来大数据时代,面对"一切皆有可能"的未来,我们如何更新观念,适应变化?河南又该如何把握机遇,奋勇向前?对此,网友众说纷纭,分享观点. 记者连线 什么是大数据云计算

巅峰对话:畅想大数据时代的车联网与智能汽车

ZD至顶网CIO与应用频道 01月20日 北京消息:2016年1月20日,数据猿作为独家全程直播与专访媒体,受邀参加"全球大数据峰会 Global Big Data Conference 简称为 GBDC"本届大会由世界O2O组织.全球大数据联盟GBDC.全球移动游戏联盟GMGC.光合资本主办,中国互联网协会O2O工作组.中国汽车流通协会支持. GBDC全球大数据峰会在北京国家会议中心举办,本届大会规模逾3000人.大会从大数据改变政务管理方式.引领全球企业营销.智能交通综合服务.互联

基因大数据:畅想农业和健康

  "中关村大数据产业联盟"推出"大数据100分"论坛,每晚9点开始,于"中关村大数据产业联盟"微信群进行时长100分钟的交流.探讨.   主持人:中关村大数据产业联盟 副秘书长 陈新河 主讲人:尹烨 承办:中关村大数据产业联盟   尹烨:华大医学执行总裁.尹烨,1979年生,籍贯山东烟台.2002年毕业于大连理工大学生物工程专业获学士学位, 2013年获华南理工大学生物工程(基因组学)工程硕士学位.2002年加入华大基因,先后从事体外诊断试剂研

一家贵阳驾校建立驾培大数据云服务平台的畅想

因为车辆有限等原因,在贵阳的驾校中,经常可以看到学员三三两两围在一起等待练车的情景."等贵州驾校行业云服务平台建立后,这种情况将成为历史."贵州吉源实业发展有限公司总裁龙红阳说. 3月1日,借助贵州发展大数据产业的东风,贵州吉源实业发展有限公司旗下的贵州吉源驾驶培训学校与北京市计算中心签订合作协议,将投资7.7亿元建设立足贵州.面向全国的驾培大数据云服务平台.平台建成之后,各驾校运营相关数据将自动存储在平台上,形成强大的数据仓库,不仅可为驾培行业提供更优质高效服务,还能给相关职能部门提

大数据时代畅想

大数据时代不是突然出现的,实际上过去的几十年间,数学分析就已经涉猎金融行业了,诺贝尔经济学奖获得者哈里.马克维茨.威廉.夏普.罗伯特.恩格尔就是利用计量经济学知识和金融市场数据来建立数学模型,预测金融市场产品收益同风险波动的关系.大数据时代的出现简单的讲是海量数据同完美计算能力结合的结果.确切的说是移动互联网.物联网产生了海量的数据,大数据计算技术完美地解决了海量数据的收集.存储.计算.分析的问题.大数据时代开启人类社会利用数据价值的另一个时代. 首先来介绍一下大数据时代中新出现的数据类型: 1

畅想大数据时代的企业管理

"如果能观察的更细致,我们能做到的就更多."二十世纪生物科学.材料科学和制药技术之所以能有革命性发展,非常关键的原因之一是三十年代电子显微镜的问世.而互联网的逐渐成熟,正在使得洞察经济社会的细微变化成为可能.大数据的应用或许可以比作社会科学领域的电子显微镜. 或许是正应了英雄所见略同这句古话,最新一期的<哈佛商业评论>和<MIT斯隆管理评论>都分别以"大数据"作为主题.众多学者和企业加入对大数据时代的预测和探讨,他们得出的结论是:在未来,数据

合理利用大数据 助力中国各产业加速发展

随着物联网的应用及智慧产业的爆发,"大数据"这个词汇再次高频度地出现在人们的视线中,围绕大数据做文章也相应催生出了农业大数据.工业大数据.健康大数据.旅游大数据等一批行业领域的大数据概念.作为各行各业智能化变革的重要组成部分,"如何利用大数据"成为传统企业和新兴互联网厂商争相涌入的新一片蓝海. 合理利用大数据助力中国各产业加速发展 智慧产业的应用简单来说,需要依托传感前端的智能感知或者数据采集,经过数据筛选.分析等处理,最终根据业务需求提供服务应用的一个过程.其中,

数读交通:高德取大数据服务用户 呼吁群策群力

出门堵车,出租车打不到--每每出门这些烦恼都会困扰着我们,智能交通已经不仅仅是一种畅想,而是每个人都亟待享受到的.车驶在路上,人走在街边,不知不觉中他们都成为智能交通中的大数据,"解铃还须系铃人",智能交通需要大数据来给出答案. 本期<数读>聚焦交通行业,展示大数据在智能交通上的用武之地.为此,CNET采访了高德交通信息事业部总经理董振宁,他向CNET介绍,高德多年来积累了大量的交通流量类和交通事件类数据,并将这些数据的分析应用到高德产品中,为用户推荐便捷的出行路线,他还呼

“八仙过海”的大数据与人工智能专场,都有怎样的真知灼见?|EmTech香港峰会

6 月 6 日,由 MIT 科技评论主办的第二届 EmTech 香港峰会在香港会议展览中心举行.早上,雷锋网 AI 科技评论覆盖了新材料的三个精彩演讲,三位来自学界的研究者分别阐述了他们的产品从实验室到商业化的过程.而下午一点半准时开始,持续三个半小时的「大数据与人工智能」专场可谓是最具重量级的内容,不论是在时长上,还是在内容的丰富性上,都非常值得期待. 在休息间隙,雷锋网编辑与 CCF-GAIR 2017 程序委员会主席.香港科技大学杨强教授进行了简短的交流.他表示自己也是受主办方的邀请来到现