JStorm,让大规模流处理成为可能

本文PPT来自资深专家封仲淹于10月16日在2016年杭州云栖大会上发表的《Large-Scale Stream Processing inside Alibaba》。

JStorm 是阿里巴巴基于storm采用Java重写的一套开源的分布式实时流计算框架,其诞生于2013年,经历多次迭代,至今已经发布25了版本。总体而言,JStorm具有高性能、高稳定性,适于大规模部署这些特点,其他的用户方的特色功能包括用户自定义的调度器和资源用法、先进的日志机制、更细粒度的Metrics、动态规模调整和快速的应用升级等等。

目前,JStorm运行在超过4000台机器上,它不仅能单独部署,也实现了JStorm-on-yarn和JStorm-on-docker,使JStorm能够被部署在框架上。这些集群共形成了超过1500个应用和2000余个拓扑结构,每天产生的数据超过惊人的2PB。在实际运用中,JStorm有许多应用场景,如欺诈检测、广告审核、数据统计、系统监控、数据传输、实时推荐和应用调度等,除了供阿里自身使用,JStorm还被众安保险、科大迅飞、网宿科技等超过50家公司使用。未来,JStorm将支持Apache Beam,并努力成为一个强大的高级语言框架,使其更容易学习和调试,提供更大的吞吐量。

最后关于JStorm和Storm的区别,阿里的JStorm不仅仅是Storm的简单包装,更重要的是JStorm意味着一个流处理生态系统,一个企业级的Java Storm,并且比Storm更快、更稳定、特性也更多。

时间: 2024-09-25 02:11:16

JStorm,让大规模流处理成为可能的相关文章

双11数据大屏背后的秘密:大规模流式增量计算及应用

首先从理解什么是数据流开始今天的分享,其实在真实的世界中,大部分的数据都是连续产生的数据流,比如手机上产生的GPS信号.用户在互联网上的行为.在线搜索.用户的点击.社交网络分享.即时通信以及一些传感器和物联网设备采集的日志信息等,这些数据都是连续产生的,自然就形成了数据流,在这些数据流产生以后,在很多场景下对于数据流的实时分析就会产生很大的价值. 接下来从大家比较熟悉的数据场景切入,比如大家经常会关注的股市情况,股价的波动其实就是实时数据的分析和聚合,除此之外大家在日常生活中还可能比较关心天气预

双11数据大屏背后:大规模流式增量计算及应用(附资料)

首先从理解什么是数据流开始今天的分享,其实在真实的世界中,大部分的数据都是连续产生的数据流,比如手机上产生的GPS信号.用户在互联网上的行为.在线搜索.用户的点击.社交网络分享.即时通信以及一些传感器和物联网设备采集的日志信息等,这些数据都是连续产生的,自然就形成了数据流,在这些数据流产生以后,在很多场景下对于数据流的实时分析就会产生很大的价值. 接下来从大家比较熟悉的数据场景切入,比如大家经常会关注的股市情况,股价的波动其实就是实时数据的分析和聚合,除此之外大家在日常生活中还可能比较关心天气预

Neha Narkhede: 借助Apache Kafka实现大规模流处理

在QCon纽约2016大会上,Neha Narkhede在演讲"借助Apache Kafka实现大规模流处理"中介绍了Kafka Streams,这是Kafka用于处理流式数据的新特性.据Narkhede介绍,因为"无界(unbounded)"数据集随处可见,所以流处理越来越流行.那不再是一个像机器学习那样的小众问题. Narkhede首先介绍了数据操作的基本编程范式: 请求/响应周期 批处理 流处理然后,Narkhede提供了一个来自零售领域的流处理实例:销售和发

突破流计算极限挑战后,阿里将发力图计算及大规模机器学习

近日,体系结构顶级会议ASPLOS首次在中国举办,阿里巴巴副总裁.阿里云首席科学家周靖人发表主旨演讲,介绍了阿里巴巴云的大数据和AI计算平台,以及其中广泛的产品和服务.同时透露阿里接下来将在图计算和大规模机器学习领域进一步发力. 随着物联网传感器.移动应用和在线服务的普及和广泛应用,越来越多的数据以流的形式源源不断的产生.基于数据流的实时分析变得越来越重要,例如实时化的商业决策依赖高时效性的报表,在线服务优化需要动态捕捉用户行为等. 这一系列应用的背后离不开大规模流计算平台的支撑.从系统架构角度

超越批处理的世界:流计算

今日,流式数据处理是大数据里的很重要一环.原因有不少,其中包括: 商业(竞争)极度渴望更快的数据,而转换成流计算则是一个好的方法来降低延迟. 海量的.无穷数据集在现在的商业环境里变的越来越常见,而用专门设计来处理这样数据的系统来应对这些数据则更为容易. 在数据到达时就对他们进行处理能够更加平均地把负载进行均衡,取得更好的一致性和更可预测的计算资源消耗. 尽管业务驱动带来了对流计算兴趣的猛增,但绝大部分现有的流计算系统相比于批处理还不够成熟,而后者已经产生了很多令人激动的.多产的应用. 作为从事海

使用Kinesis Connector to Elasticsearch进行流数据搜索及交互

近日,亚马逊官方博客发表博文介绍了如何借助Kinesis Connector to Elasticsearch 进行流数据的搜索及交互,从而帮组开发者轻松开发一款用于从Kinesis实时并可靠地下载大规模流数据到Elasticsearch集群的应用程序. 据官方介绍,Elasticsearch 是一个开源搜索及分析引擎,能够实时索引结构化和非结构化数据.Kibana是Elasticsearch的数据可视化引擎,主要是帮助技术运维人员及业务分析人员设置交互面板的.Elasticsearch集群中的

300+篇运维、数据库等实战资料免费下载(文章+PDF+视频,持续更新)

2017年已过去一半,在此小编为大家精心整理了2017上半年热点事件解析.实战技术资料以及特别策划短视频系列,希望可以帮助大家更深入地回顾上半年的技术热点,并储备更充足的技术干粮继续2017的下一半. PART 1 峰会回顾资料 云栖大会 [上海云栖大会]2017云栖大会上海峰会资料合计(现场视频+PDF下载) [成都云栖大会]2017云栖大会成都峰会资料合计(现场视频+PDF下载) [南京云栖大会]2017云栖大会南京峰会资料合计(现场视频+PDF下载) 技术峰会 [运维/DevOps峰会]

云栖精选8月刊丨最全2016云栖大会资料大放送!技术精彩值得打call!

"从最初400人参加的站长大会到云栖大会,我每年来云栖小镇,又激动.又恐慌.又感动.激动的是在这里开启了梦想之旅,正如15年前我们所希望的创业热朝.恐慌的是很多创意我几乎看不懂,越看越慌,记得有一次回家路上在想,幸好我是二十年以前创业,如果现在创业,估计自己都不知道自己在哪里,根本没法跟这些年轻人竞争.感动的是:我们在这儿找到了自己,阿里人对云栖大会的热情来源于可以在这里找到很多知己,找到很多当年的我们. 在13日天猫双十一启动会上,外国驻华大使问我:阿里巴巴纽约上市之后的下一个梦想是什么?我认

【资料合集】在线大数据技术峰会:讲义PDF+活动视频!

回顾大数据技术领域大事件,最早可追溯到2006年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术.这是个技术人的好时代,仅数据库领域热门DB就有300+,围绕着Hadoop生态圈的大数据处理技术更是繁花似锦.然而着眼当下,大数据在行业内的实际落地仍然不是件简单的事情,大数据创业成功的案例更是少之又少. 1. MaxCompute 2.0 性能优化揭秘 演讲视频:http://yq.aliyun.com/webinar/play/188 PDF下载:h