JStorm-Alibaba —— Storm 的实时流式计算框架

JStorm是参考storm的实时流式计算框架,在网络IO、线程模型、资源调度、可用性及稳定性上做了持续改进,已被越来越多企业使用。经过4年发展,阿里巴巴JStorm集群已经成为世界上最大的集群之一,基于JStorm的应用数量超过1000个。数据显示,JStorm集群每天处理的消息数量达到1.5PB。 在2015年,JStorm正式成为Apache Storm里的子项目。JStorm将在 Apache Storm里孵化,孵化成功后会成为Apache Storm主干。

文章转载自 开源中国社区 [http://www.oschina.net]

时间: 2024-10-23 17:40:36

JStorm-Alibaba —— Storm 的实时流式计算框架的相关文章

用PostgreSQL支持含有更新,删除,插入的实时流式计算

大多数的流式计算产品只支持APPEND ONLY的应用场景,也就是只有插入,没有更新和删除操作.如果要实现更新和删除的实时流式计算,在PostgreSQL中可以这样来实现.在此前你可以阅读我以前写的文章来了解PG是如何处理一天一万亿的实时流式计算的:https://yq.aliyun.com/articles/166 要支持更新和删除,思路是这样的,加一张前置表,这个前置表的某个字段用来记录字段的最终状态,即到达这个状态后,记录不会被更新或删除.通过触发器来控制什么记录插入到流中同时从前置表删除

浅谈Storm流式处理框架(转)

       Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据.但是,Hadoop的缺点也和它的优点同样鲜明--延迟大,响应缓慢,运维复杂.       有需求也就有创造,在Hadoop基本奠定了大数据霸主地位的时候,很多的开源项目都是以弥补Hadoop的实时性为目标而被创造出来.而在这个节骨眼上Storm横空出世了.       Storm带着流式计算的标签华丽丽滴出场了,看看它的一些卖点: 分布式系统:可横向拓展,现在的项目不带个分布式特性都不好意思开源. 运维简单:S

跨入流式计算时代,用不着洪荒之力——在阿里云容器服务上一键部署JStorm

JStorm是阿里巴巴出品的强大的企业级流式计算引擎,跟Apache Strom相比,具有使用方便.性能高.生态丰富等优点,是搭建流式计算平台的优秀选择.更多关于JStorm的介绍,请参考官方网站http://www.jstorm.io/ 但是,部署JStorm依赖于zookeeper.python.JDK等若干个组件,同时还要配置nimbus.supervisor等角色,部署过程比较长.为了简化这一过程,阿里巴巴JStorm团队和容器服务团队合作推出了Docker版的JStorm,可以实现一键

《Storm技术内幕与大数据实践》一1.2 其他流式处理框架

1.2 其他流式处理框架 1.2.1 Apache S4Apache S4(http://incubator.apache.org/s4/)是由Yahoo开源的多用途.分布式的.可伸缩的.容错的.可插入式的实时数据流计算平台. S4填补了复杂的专有系统和面向批处理的开源计算平台之间的差距.其目标是开发一个高性能计算平台,对应用程序开发者隐藏并行处理系统固有的复杂性.S4已经在Yahoo!系统中大规模使用,目前最新版本是0.6.0. S4相对于Storm在可靠性和容错性上差一些,S4不保证完全不丢

Spark Streaming 流式计算实战

这篇文章由一次平安夜的微信分享整理而来.在Stuq 做的分享,原文内容.  业务场景 这次分享会比较实战些.具体业务场景描述: 我们每分钟会有几百万条的日志进入系统,我们希望根据日志提取出时间以及用户名称,然后根据这两个信息形成 userName/year/month/day/hh/normal  userName/year/month/day/hh/delay 路径,存储到HDFS中.如果我们发现日志产生的时间和到达的时间相差超过的一定的阈值,那么会放到 delay 目录,否则放在正常的 no

流式计算的系统设计和实现

阿里云数据事业部强琦为大家带来题为"流式计算的系统设计与实现"的演讲,本文主要从增量计算和流式计算开始谈起,然后讲解了与批量计算的区别,重点对典型系统技术概要进行了分析,包括Storm.Kinesis.MillWheel,接着介绍了核心技术.消息机制以及StreamSQL等,一起来了解下吧.   增量计算和流式计算 流式计算 流计算对于时效性要求比较严格,实时计算就是对计算的时效性要求比较强.流计算是利用分布式的思想和方法,对海量"流"式数据进行实时处理的系统,它源

StreamingPro支持Flink的流式计算了

前言 有的时候我们只要按条处理,追求实时性而非吞吐量的时候,类似Storm的模式就比较好了.Spark 在流式处理一直缺乏改进,而Flink在流式方面做得很棒,两者高层的API也是互相借鉴,容易形成统一的感官,所以决定让StreamingPro适配Flink,让其作为StreamingPro底层的流式引擎. StreamingPro自身设计之初就是为了支持多引擎的,所以改造成本很低,昨天花了一下午,晚上加了会班就重构完了.这次增强可以让我司的流式引擎有了新的选择. 准备工作 下载安装包 为了跑起

观点:流式计算推动实时处理商业变革

在这一年,我们看到众多厂商工作重点主要是围绕整合Hadoop或NoSQL数据处理引擎以及改善基本的数据存储.Hadoop最成功的一点就是其采用了MapReduce.MapReduce是一种处理超大型数据集并生成相关执行的编程模型,MapReduce的核心思想主要是借鉴了函数是编程语言以及矢量变成语言里的特性. 现今包括Microsoft.IBM.Oracle.Cloudera.MapR等众多厂商相继推出了与自身相结合的Hadoop产品.例如Oracle NoSQL Database,其是Orac

2016美国QCon看法:在Beam上,我为什么说Google有统一流式计算的野心

编者按:流式计算(Stream Processing)在经历了若干年的发展之后,已经有了比较完整的生态,如开源的Storm, Flink, Spark等,未开源的如Google的DataFlow,几乎每个巨头都有自己的流式计算系统.生态虽繁荣但分散,各个平台之间也是互不兼容的,一个平台上写的程序很难移植到另外一个平台,这些领域难题再加上Google大一统流式计算的野心催生了Apache孵化器的新项目Beam.            Google是最早实践大数据的公司,目前大数据繁荣的生态很大一部