在spark streaming中实时更新mllib的ALS算法的模型遇到的问题!

问题描述

在spark streaming中实时更新mllib的ALS算法的模型遇到的问题!

在spark streaming中使用ALS算法,实现模型的实时更新有人了解吗?

总是出ERROR [dag-scheduler-event-loop] scheduler.DAGSchedulerEventProcessLoop (Logging.scala:logError(96)) - DAGSchedulerEventProcessLoop failed; shutting down SparkContext
这个异常是什么意思?网上找了好久都没解决。。快疯了

大概就是上面几张图描述的那样子,求教育!

解决方案

问题已 解决。。。
allData 加上cache之后异常可以解决了,这是为什么呢?
其中又出现了一个错误:

卡住n久之后,程序退出,hdfs和hbase的相关节点挂掉
一路查看了相应的日志一知半解可能是nn和jn之间的通信超时了
按照官网的文档 配置在hdfs-site.xml中加入

dfs.qjournal.write-txns.timeout.ms
600000000

再次测试,又抛新异常

代码中allData.repartion(3).cache(只是抱着试一试的心态)
再次测试,运行过程中又出现了几次和zk连接中断之后自动重新连接
基本运行没问题了

虽然问题解决了,但是完全不知道是怎么个原理来解决的。。。
程序运行的时候总是会和zk通信中断之后在重新连接,虽然可以达到目的,但是重新连接过程要消耗很多时间,有什么好的解决方法吗

时间: 2024-11-18 14:19:07

在spark streaming中实时更新mllib的ALS算法的模型遇到的问题!的相关文章

如何基于Spark Streaming构建实时计算平台

1.前言 随着互联网技术的迅速发展,用户对于数据处理的时效性.准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战. 自2015年携程实时计算平台搭建以来,经过两年多不断的技术演进,目前实时集群规模已达上百台,平台涵盖各个SBU与公共部门数百个实时应用,全年JStorm集群稳定性达到100%.目前实时平台主要基于JStorm与Spark Streaming构建而成,相信关注携程实时平台的朋友在去年已经看到一篇关于携程实时平台的分享:

Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming.Spark SQL.MLlib.GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑.这也得益于Scala编程语言的简洁性.这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算. 我们的应用场景是分析用户使用手机App的行为,描述如下所示: 手机客户端会收集用户的行为事件(我们以点击

【Spark Summit East 2017】 使用Kafka Connect和Spark Streaming构建实时数据管道

本讲义出自Ewen Cheslack Postava在Spark Summit East 2017上的演讲,主要介绍了面对使用Spark Streaming构建大规模实时数据管道的挑战,Kafka项目最近推出了新的工具-- Kafka Connect,该工具将帮助简化从Kafka导入和导出数据,Ewen Cheslack Postava分享了如何使用Kafka Connect和Spark Streaming构建实时数据管道.

spark streaming 中使用saveAsNewAPIHadoopDataset方法写入hbase中,从checkpoint中恢复时报错

问题描述 最近写了一个从Kafka读取数据,处理之后通过saveAsNewAPIHadoopDataset方法写入到hbase中,正常运行的时候没有报错,写入也正常,但是当手动停止应用,再次执行(通过Checkpoint恢复)的时候就会报错,跪求大神们解答!!报错信息如下:15/12/2216:26:52WARNVerifiableProperties:Propertyserializer.classisnotvalid15/12/2216:26:57WARNFileOutputCommitte

【Spark Summit EU 2016】从使用Spark Streaming中所学到的经验

本讲义出自Miklos Christine在Spark Summit EU 2016上的演讲,简单介绍了DataBricks,并主要介绍了Spark Streaming的总体架构设计,Spark Streaming与结构化的流计算相比的不同之处以及目前阶段Spark Streaming的5大问题:类型不匹配.无法找到主要偏移量.toDF不属于RDD成员.任务不是序列化的以及有关JSON记录的相关问题.

Spark streaming 做实时数据处理的问题

问题描述 现在基于sparkstreaming做在线查询,按照我看完资料的认识,streamingcontext启动后,就不能再添加新的streaming计算或操作进去,这样一来,如果我想要实时做多种查询,是否意味着必须反复重启streamingContext才能实现?因为对storm不是很了解,不知道storm这方面是否有实现的方法?希望有经验的朋友能解答一下. 解决方案 解决方案二:对查询条件做逻辑判断,根据你传入的查询类型,调用不同的计算解决方案三:引用1楼dlh13061201的回复:

《Spark官方文档》Spark Streaming编程指南(一)

Spark Streaming编程指南 概览   Spark Streaming是对核心Spark API的一个扩展,它能够实现对实时数据流的流式处理,并具有很好的可扩展性.高吞吐量和容错性.Spark Streaming支持从多种数据源提取数据,如:Kafka.Flume.Twitter.ZeroMQ.Kinesis以及TCP套接字,并且可以提供一些高级API来表达复杂的处理算法,如:map.reduce.join和window等.最后,Spark Streaming支持将处理完的数据推送到文

《Spark官方文档》Spark Streaming编程指南(二)

累加器和广播变量 首先需要注意的是,累加器(Accumulators)和广播变量(Broadcast variables)是无法从Spark Streaming的检查点中恢复回来的.所以如果你开启了检查点功能,并同时在使用累加器和广播变量,那么你最好是使用懒惰实例化的单例模式,因为这样累加器和广播变量才能在驱动器(driver)故障恢复后重新实例化.代码示例如下: Scala Java Python object WordBlacklist { @volatile private var ins

Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark Streaming(一)

本节主要内容 本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operations Spark流式计算简介 Spark Streaming相关核心类 入门案例 1. Spark流式计算简介 Hadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐.实时网站性能分析等,流式计算可以解决这些问题.目前有三种比较常