Hadoop summit 2015 实时计算

有幸参加了6月9号到6月11号在圣何塞举办Hadoop summit 2015,主要关注了实时计算相关的topic。
本次参会的主要感受是:实时处理成为各个公司的标配,OLAP是基本需求。
下面我主要分享如下三个议题:

  • 实时计算框架(主要是storm,spark主题太少,涉及实时计算的基本没有)
  • RealTime Process和 Batch Process的统一
  • RealTime 处理架构以及Design Pattern

实时计算框架

这次Hadoop 峰会有一个storm的committer(来自yahoo)分享了storm在yahoo遇到的问题以及如何解决这些问题的方法,同时介绍了后续storm后续发展规划

Yahoo中最大的Topology

Yahoo中storm集群的规模



Yahoo中Hadoop集群和Storm集群的对比

Zk是storm集群规模扩张的绊脚石之一

heartbeat server


数据状态的收集以及Nimbus的jar down也是影响storm集群规模的因素

Storm需要基于资源和网络拓扑的调度

由于这次是hadoop summit 所以介绍spark很少,介绍spark streaming就没有了

RealTime Process和 Batch Process的统一

Batch Process


Stream Process


Streaming And Batch


Streaming only Pattern


SummingBird 统一batch和stream

RealTime 处理架构以及Design Pattern

一般情业务架构


Lambda Architecture And Kappa Architecture

Design Patterm

External Lookup

Responsive Shuffling

Out-of_sequence Events

总结

 该文章来自于阿里巴巴技术协会(ATA)

时间: 2024-09-19 08:23:14

Hadoop summit 2015 实时计算的相关文章

【Hadoop Summit Tokyo 2016】使用Hadoop来构建实时和批数据的数据质量服务

本讲义出自Alex Lv与Amber Vaidya在Hadoop Summit Tokyo 2016上的演讲,主要分享了构建于Spark和Hadoop上的开源数据质量平台Griffin,Griffin可以用于处理批量数据.实时数据和非结构化的数据,并且构建了统一的过程来检测无效或者不准确等DQ问题,讲义中介绍了eBayGriffin的技术架构.以及用例等.

【Hadoop Summit Tokyo 2016】使用基于Lambda架构的Spark的近实时的网络异常检测和流量分析

本讲义出自Pankaj Rastogi与Debasish Das在Hadoop Summit Tokyo 2016上的演讲,主要分享了网络数据相关知识.网络异常DDoS攻击以及使用基于Lambda架构的Spark的近实时的网络异常检测和流量分析的架构设计,并分享了Trapezium的相关概念.

【Hadoop Summit Tokyo 2016】以Apache Storm为例增强可靠性的流计算

本讲义出自Frank Zhao.Fenghao Zhang与 Yusong Lv在Hadoop Summit Tokyo 2016上的演讲,主要介绍了分布式流系统的相关概念,可靠性处理.Apache Storm的解决方案以及面对的挑战.新提出的方法以及 Apache Storm的原型和基准.

【PDF大放送】Spark&Hadoop Summit精选分享PDF合集

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具,锅碗瓢盆,各有各的用处,互相之间又有重合.你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮.但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择. Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Had

权威详解 | 阿里新一代实时计算引擎 Blink,每秒支持数十亿次计算

作者介绍 王峰,淘宝花名"莫问",2006年毕业后即加入阿里巴巴集团,长期从事搜索和大数据基础技术研发工作,目前在计算平台事业部,负责实时计算北京研发团队. 在阿里巴巴的11年工作期间,持续专注大数据计算与存储技术领域,基于Hadoop开源生态打造的数据基础设施一直服务于搜索.推荐等阿里核心电商业务场景,最近一年带领团队对Apache Flink进行了大量架构改进.功能完善和性能提升,打造出了阿里新一代实时计算引擎: Blink.目前数千台规模的Blink生产集群已经开始在线支持搜索.

满满的技术干货!Hadoop顶级会议Apache Hadoop Summit精华讲义分享

Apache Hadoop Summit是Hadoop技术的顶级会议,这里大咖云集,一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践. 本文整理了Apache Hadoop Summit  Tokyo 2016上的精选演讲的讲义,无论是你想要的是Hadoop发展前沿,是Hadoop优化技巧,还是技术最佳实践,统统都在这里! [Hadoop Summit Tokyo 2016]Apache NiFi速成课 [Hadoop Summit Tokyo 2016]重建大规模Web跟踪设施

如何基于Spark Streaming构建实时计算平台

1.前言 随着互联网技术的迅速发展,用户对于数据处理的时效性.准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战. 自2015年携程实时计算平台搭建以来,经过两年多不断的技术演进,目前实时集群规模已达上百台,平台涵盖各个SBU与公共部门数百个实时应用,全年JStorm集群稳定性达到100%.目前实时平台主要基于JStorm与Spark Streaming构建而成,相信关注携程实时平台的朋友在去年已经看到一篇关于携程实时平台的分享:

Spark 实时计算整合案例

1.概述 最近有同学问道,除了使用 Storm 充当实时计算的模型外,还有木有其他的方式来实现实时计算的业务.了解到,在使用 Storm 时,需要编写基于编程语言的代码.比如,要实现一个流水指标的统计,需要去编写相应的业务代码,能不能有一种简便的方式来实现这一需求.在解答了该同学的疑惑后,整理了该实现方案的一个案例,供后面的同学学习参考. 2.内容 实现该方案,整体的流程是不变的,我这里只是替换了其计算模型,将 Storm 替换为 Spark,原先的数据收集,存储依然可以保留. 2.1 Spar

转 大数据实时处理:百分点实时计算架构和算法

当今时代,数据不再昂贵,但从海量数据中获取价值变得昂贵,而要及时获取价值则更加昂贵,这正是大数据实时计算越来越流行的原因.以百分点公司为例,在高峰期每秒钟会有近万HTTP请求发送到百分点服务器上,这些请求包含了用户行为和个性化推荐请求.如何从这些数据中快速挖掘用户兴趣偏好并作出效果不错的推荐呢?这是百分点推荐引擎面临的首要问题.本文将从系统架构和算法两方面全介绍百分点公司在实时计算方面的经验和心得体会,供读者参考. a) 实时计算架构 图 1百分点大数据平台原理示意图 工欲善其事,必先利其器.一