E-Mapreduce培训系列之流式计算

视频见:

如果没有播放,请大家点击:
E-Mapreduce培训系列之流式计算视频地址
E-Mapreduce培训系列之流式计算PPT下载地址

介绍

基本架构


我们的数据来源自logservice,我们在logservice上配置一个数据源,此数据源是监控我们EMR集群的master机器的一个文件的,当这个文件增加内容时,数据就会被logservice采集到,sparkStreaming就会消费这个消息。

下载、编译代码

git clone https://github.com/aliyun/aliyun-emapreduce-demo.git
mvn install

配置logservice

本地运行

本地执行的最大好处就是可以在IDE里面调试,运行代码,不需要打包,上传jar包。

上传jar

在集群上运行,我们需要把jar包上传到OSS中。这里上传的是shared包,shared包里面包括了除本工程代码外的其它的jar包。这么做是十分简单,但是由于打在一个包中,维护起来有点困难。

新建作业


在emapreduce管控平台上新建作业

新建执行计划

在emapreduce管控平台上新建执行计划。由于流式的作业是需要一直在跑的,可以先购买包年包月的集群,这样便宜很多。

执行

直接鼠标点击执行或者定时器定时调度

查看结果状态/日志

可以在emapreduce管控平台查看作业的运行状态,一些日志

通过hadoop网页看下作业的运行情况

可以打通ssh通道,启动本地浏览器查看Yarn ui、Spark ui,
spark ui有对spark streaming更为详细的日志。

时间: 2024-10-28 13:39:42

E-Mapreduce培训系列之流式计算的相关文章

流式计算的系统设计和实现

阿里云数据事业部强琦为大家带来题为"流式计算的系统设计与实现"的演讲,本文主要从增量计算和流式计算开始谈起,然后讲解了与批量计算的区别,重点对典型系统技术概要进行了分析,包括Storm.Kinesis.MillWheel,接着介绍了核心技术.消息机制以及StreamSQL等,一起来了解下吧.   增量计算和流式计算 流式计算 流计算对于时效性要求比较严格,实时计算就是对计算的时效性要求比较强.流计算是利用分布式的思想和方法,对海量"流"式数据进行实时处理的系统,它源

观点:流式计算推动实时处理商业变革

在这一年,我们看到众多厂商工作重点主要是围绕整合Hadoop或NoSQL数据处理引擎以及改善基本的数据存储.Hadoop最成功的一点就是其采用了MapReduce.MapReduce是一种处理超大型数据集并生成相关执行的编程模型,MapReduce的核心思想主要是借鉴了函数是编程语言以及矢量变成语言里的特性. 现今包括Microsoft.IBM.Oracle.Cloudera.MapR等众多厂商相继推出了与自身相结合的Hadoop产品.例如Oracle NoSQL Database,其是Orac

2016美国QCon看法:在Beam上,我为什么说Google有统一流式计算的野心

编者按:流式计算(Stream Processing)在经历了若干年的发展之后,已经有了比较完整的生态,如开源的Storm, Flink, Spark等,未开源的如Google的DataFlow,几乎每个巨头都有自己的流式计算系统.生态虽繁荣但分散,各个平台之间也是互不兼容的,一个平台上写的程序很难移植到另外一个平台,这些领域难题再加上Google大一统流式计算的野心催生了Apache孵化器的新项目Beam.            Google是最早实践大数据的公司,目前大数据繁荣的生态很大一部

用PostgreSQL支持含有更新,删除,插入的实时流式计算

大多数的流式计算产品只支持APPEND ONLY的应用场景,也就是只有插入,没有更新和删除操作.如果要实现更新和删除的实时流式计算,在PostgreSQL中可以这样来实现.在此前你可以阅读我以前写的文章来了解PG是如何处理一天一万亿的实时流式计算的:https://yq.aliyun.com/articles/166 要支持更新和删除,思路是这样的,加一张前置表,这个前置表的某个字段用来记录字段的最终状态,即到达这个状态后,记录不会被更新或删除.通过触发器来控制什么记录插入到流中同时从前置表删除

Spark Streaming 流式计算实战

这篇文章由一次平安夜的微信分享整理而来.在Stuq 做的分享,原文内容.  业务场景 这次分享会比较实战些.具体业务场景描述: 我们每分钟会有几百万条的日志进入系统,我们希望根据日志提取出时间以及用户名称,然后根据这两个信息形成 userName/year/month/day/hh/normal  userName/year/month/day/hh/delay 路径,存储到HDFS中.如果我们发现日志产生的时间和到达的时间相差超过的一定的阈值,那么会放到 delay 目录,否则放在正常的 no

大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《数据可视化:构建实时动态运营数据分析大屏》篇

大数据workshop:<在线用户行为分析:基于流式计算的数据处理及应用>之<数据可视化:构建实时动态运营数据分析大屏>篇 实验背景介绍 了解更多2017云栖大会·成都峰会 TechInsight & Workshop. 本手册为云栖大会Workshop之<在线用户行为分析:基于流式计算的数据处理及应用>场的<数据可视化:构建实时动态运营数据分析大屏>篇所需.主要帮助现场学员熟悉并掌握DataV数据可视化的操作和使用. 实验涉及大数据产品 DataV

跨入流式计算时代,用不着洪荒之力——在阿里云容器服务上一键部署JStorm

JStorm是阿里巴巴出品的强大的企业级流式计算引擎,跟Apache Strom相比,具有使用方便.性能高.生态丰富等优点,是搭建流式计算平台的优秀选择.更多关于JStorm的介绍,请参考官方网站http://www.jstorm.io/ 但是,部署JStorm依赖于zookeeper.python.JDK等若干个组件,同时还要配置nimbus.supervisor等角色,部署过程比较长.为了简化这一过程,阿里巴巴JStorm团队和容器服务团队合作推出了Docker版的JStorm,可以实现一键

专访阿里云高级技术专家吴威:Kafka、Spark和Flink类支持流式计算的软件会越来越流行

杭州·云栖大会将于2016年10月13-16日在云栖小镇举办,在这场标签为互联网.创新.创业的云计算盛宴上,众多行业精英都将在这几天里分享超过450个演讲主题. 为了帮助大家进一步了解这场全球前言技术共振盛会的内容,采访了各个论坛的大咖,以飨读者. 以下为正文: 吴威,阿里云高级技术专家.E-MapReduce产品是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,为用户提供集群.作业.数据等管理的一站式大数据处理分析服务,他在其中参与产品设计讨论.平台性能调优等工作,并为用户提供技

StreamingPro 简化流式计算配置

前言 前些天可以让批处理的配置变得更优雅StreamingPro 支持多输入,多输出配置,现在流式计算也支持相同的配置方式了. 另外未来等另外一个项目稳定,会释放出来配合StreamingPro使用,它可以让你很方便的读写HBase,比如可以为HBase 表 添加mapping,类似ES的做法,也可以不用mapping,系统会自动为你创建列(familly:column作为列名),或者将所有列合并成一个字段让你做处理. 配置 首先需要配置源: { "name": "strea