视频见:
如果没有播放,请大家点击:
E-Mapreduce培训系列之流式计算视频地址
E-Mapreduce培训系列之流式计算PPT下载地址
介绍
基本架构
我们的数据来源自logservice,我们在logservice上配置一个数据源,此数据源是监控我们EMR集群的master机器的一个文件的,当这个文件增加内容时,数据就会被logservice采集到,sparkStreaming就会消费这个消息。
下载、编译代码
git clone https://github.com/aliyun/aliyun-emapreduce-demo.git
mvn install
配置logservice
本地运行
本地执行的最大好处就是可以在IDE里面调试,运行代码,不需要打包,上传jar包。
上传jar
在集群上运行,我们需要把jar包上传到OSS中。这里上传的是shared包,shared包里面包括了除本工程代码外的其它的jar包。这么做是十分简单,但是由于打在一个包中,维护起来有点困难。
新建作业
在emapreduce管控平台上新建作业
新建执行计划
在emapreduce管控平台上新建执行计划。由于流式的作业是需要一直在跑的,可以先购买包年包月的集群,这样便宜很多。
执行
直接鼠标点击执行或者定时器定时调度
查看结果状态/日志
可以在emapreduce管控平台查看作业的运行状态,一些日志
通过hadoop网页看下作业的运行情况
可以打通ssh通道,启动本地浏览器查看Yarn ui、Spark ui,
spark ui有对spark streaming更为详细的日志。
时间: 2024-10-28 13:39:42