架构师必知的开源实时流处理系统

这里对目前业界开源的一些实时流处理系统做一次小结,作为日后进行技术调研的参考资料。

S4

S4(Simple Scalable Streaming System)是Yahoo最新发布的一个开源流计算平台,它是一个通用的、分布式的、可扩展性良好、具有分区容错能力、支持插件的分布式流计算平台,在该平台上程序员可以很方便地开发面向无界不间断流数据处理的应用,开发语言为Java。

项目链接:http://incubator.apache.org/s4/(注:S4 0.5.0已支持TCP链接及状态恢复等特性)

Storm

Storm是Twitter开源的分布式实时计算系统,Storm通过简单的API使开发者可以可靠地处理无界持续的流数据,进行实时计算,开发语言为Clojure和Java,非JVM语言可以通过stdin/stdout以JSON格式协议与Storm进行通信。Storm的应用场景很多:实时分析、在线机器学习、持续计算、分布式RPC、ETL处理,等等。

项目链接:http://storm-project.net

StreamBase

StreamBase是一个关于复杂事件处理(CEP)、事件流处理的平台。其本身是商业应用软件,但提供了Developer Edition,开发语言为Java。

项目链接:http://www.streambase.com

HStreaming

HStreaming构建在Hadoop之上,可以和Hadoop及其生态系统紧密结合起来提供实时流计算服务。这使得HStreaming的用户可以在同一个生态系统中分析处理大数据,开发语言为Java。

项目链接:http://www.hstreaming.com

Esper & NEsper

Esper是专门进行复杂事件处理(CEP)的流处理平台,Java版本为Esper,.Net版本为NEsper。Esper & NEsper可以方便开发者快速开发部署处理大容量消息和事件的应用系统,不论是历史的还是实时的消息。

项目链接:http://esper.codehaus.org

Kafka

Kafka是Linkedin于2010年12月份开源的高吞吐、基于Pub-Sub的分布式消息系统,主要用于处理活跃的流式数据,开发语言为Scala。

项目链接:http://incubator.apache.org/kafka

Scribe

Scribe是Facebook开源的日志收集系统,开发语言为C,通过Thrift可以支持多种常用客户端语言,在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。Scribe通常与Hadoop结合使用,Scribe用于向HDFS中push日志,而Hadoop通过MapReduce作业进行定期处理。

项目链接:http://github.com/facebook/scribe

Flume

Flume是Cloudera提供的一个分布式、可靠的、高可用的日志收集系统,用于收集、聚合以及移动大量日志数据,开发语言为Java。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。

本文作者:佚名

来源:51CTO

时间: 2024-10-26 18:27:12

架构师必知的开源实时流处理系统的相关文章

Java自学书籍推荐 程序员到架构师必看的书_java

作为Java程序员来说,最痛苦的事情莫过于可以选择的范围太广,可以读的书太多,往往容易无所适从.我想就我自己读过的技术书籍中挑选出来一些,按照学习的先后顺序,推荐给大家,特别是那些想不断提高自己技术水平的Java程序员们.  一.Java编程入门类对于没有Java编程经验的程序员要入门,随便读什么入门书籍都一样,这个阶段需要你快速的掌握Java基础语法和基本用法,宗旨就是"囫囵吞枣不求甚解",先对Java熟悉起来再说.用很短的时间快速过一遍Java语法,连懵带猜多写写代码,要"

LinkedIn前数据专家解读日志与实时流处理

编者注:本内容来自Jay Kreps所著的<我喜爱日志:事件数据.流计算处理和数据集成>一书的第三章.Jay Kreps是Confluent的联合创始人和CEO.在此之前,Jay是领英的主要架构师之一,专注于数据基础架构和数据驱动的产品.他是多个可扩展的数据系统空间的开源项目的作者之一,包括Voldemort.Azkaban.Kafka和Samza. 以下是原文: 到目前为止,我还仅仅只是描述了一些把数据从一个地方拷贝到其他地方的多种的方法.然而,在存储系统间挪动字节并不是故事的结尾.实际上我

日志和实时流计算处理

到目前为止,我还仅仅只是描述了一些把数据从一个地方拷贝到其他地方的多种的方法.然而,在存储系统间挪动字节并不是故事的结尾.实际上我们发现,"日志"是"流"的另外一种说法,而日志(的处理)是流计算处理的核心. 但是先等一下,到底什么是流计算处理? 如果你是上世纪九十年代末和二十一世纪初的数据库或者数据基础设施产品的粉丝,你可能会把流计算处理和那些通过SQL引擎或者用"流程图"界面来进行数据驱动的处理过程联系起来. 而如果你是追随着爆炸性增长的开源数

运维架构师-并不遥远的彼岸

 在百度里搜索运维架构师,你会发现招聘的职位还不少并且月薪.年薪都很可观.提到架构师,大家都觉得挺神秘的,而作为运维领域的架构师,站在系统稳定和高可用.高扩展的角度,其承载着太多的责任和挑战.对于运维工程师来说,运维架构师就像是一个目标抑或是一座山峰.如何成为一名优秀的运维架构师?运维架构师应该具备何种职业素质?需要什么样的知识体系呢?   一.职业素质     运维架构师一词应该是与系统架构师.软件架构师.网络架构师.业务架构师不同的,虽然都是架构师,但侧重不同.在一个企业的IT系统中,运维架

环信首席架构师一乐 :煎饼果子与架构模式

煎饼的故事 有一段时间住在花园路,最难忘的就是路边的煎饼果子.老板每天晚上出来,正好是我加班回去的时间. 一勺面糊洒在锅上,刮子转一圈,再打一个蛋,依然刮平.然后啪的一下反过来,涂上辣酱,撒上葱花.空出手来,剥一根火腿肠.最后放上薄脆,咔咔咔三铲子断成三边直的长方形,折起来正好握在手中.烫烫的,一口咬下去,蛋香.酱辣.肠鲜,加上薄脆的声音和葱花的惊喜,所有的疲劳都一扫而光. 这种幸福感让我如此迷恋,以至于会在深宅的周末,穿戴整齐跑出去,就为了吃上一个.也因为理工科的恶习,我也情不自禁地开始思考这

分析企业如何选好、用好架构师

企业总是在发生变革.在一些变革中需要http://www.aliyun.com/zixun/aggregation/10145.html">企业架构师(EA Enterprise Architecture)来帮助CIO的工作.通常情况下,企业以公开招聘的方式选择企业架构师.也许经过几个月的多轮招聘,CIO心中已经有了合适的企业架构师人选.并且,当IT代表与公司业务代表都与这个合适的企业架构师见面认可之后,CIO会决定让这个新人加入IT团队. 但是,还请稍微等一下.企业架构师算是企业的高层管

Facebook的实时流处理技术

随着云计算大数据的发展,有越来越多的场景需要借助于实时数据处理技术,为此有很多公司开发了自己的实时处理系统,Facebook就是其中的一员,他们构建的实时数据处理生态系统每秒钟能够处理数百GB的数据.本文介绍了Facebook在设计该系统时从易用性.性能.容错.可伸缩性以及正确性等方面考虑所做的重要设计决策,这些决策和系统如何满足秒级的延迟需求,以及在构建该系统的过程中Facebook所总结的经验教训. 易用性:处理需求有多复杂?SQL是否足够?是否必须要使用C++或者Java这样的编程语言?用

阿里云首席架构师唐洪:拥抱开源的云端更具生命力

近日, 国际开源界顶级会议LC3(LinuxCon + ContainerCon + CloudOpen)首次在国内举行,阿里云首席架构师唐洪作为特邀嘉宾出席并发表主题演讲.唐洪首先从一组数字开始,回顾了阿里云历史及重大技术突破时间点:第二部分主要分享了阿里云目前的技术架构和亮点,以及在此基础上形成的广泛的阿里云产品生态:第三部分重点讲述了阿里云和开源社区的合作及进展,特别是阿里云在广义的虚拟化技术领域的历程,及在开源社区取得的成绩:最后还展望了阿里云在容器和异构计算安全等方向上未来的目标.唐洪

Gleasy首席架构师薛珂:以开源为基础实现分布式框架及中间件

注:本文首发于CSDN,转载请标明出处. [编者按]本文为在线办公平台 Gleasy的联合创始人.技术团队掌门人薛珂所写,他给我们分享了Gleasy一路走来的技术实战.据悉,发布近三年的Gleasy,已经成功积攒50,000多家企业用户,在应对在海量存储以及高并发前提下的各种基本问题的解决方面深有心得. 与此同时,2015年3月18日,Gleasy将正式发布3.0版"约了",并推出英文版.繁体版,以及启动互联网服务合作伙伴邀约计划. 以下为正文: Gleasy作为云技术服务提供商,主要