在spark streaming中实时更新mllib的ALS算法的模型遇到的问题！

问题描述

在spark streaming中实时更新mllib的ALS算法的模型遇到的问题！

在spark streaming中使用ALS算法，实现模型的实时更新有人了解吗？

总是出ERROR [dag-scheduler-event-loop] scheduler.DAGSchedulerEventProcessLoop (Logging.scala:logError(96)) - DAGSchedulerEventProcessLoop failed; shutting down SparkContext
这个异常是什么意思？网上找了好久都没解决。。快疯了

大概就是上面几张图描述的那样子，求教育！

解决方案

问题已解决。。。
allData 加上cache之后异常可以解决了，这是为什么呢？
其中又出现了一个错误：

卡住n久之后，程序退出，hdfs和hbase的相关节点挂掉
一路查看了相应的日志一知半解可能是nn和jn之间的通信超时了
按照官网的文档配置在hdfs-site.xml中加入

dfs.qjournal.write-txns.timeout.ms
600000000

再次测试，又抛新异常

代码中allData.repartion(3).cache（只是抱着试一试的心态）
再次测试，运行过程中又出现了几次和zk连接中断之后自动重新连接
基本运行没问题了

虽然问题解决了，但是完全不知道是怎么个原理来解决的。。。
程序运行的时候总是会和zk通信中断之后在重新连接，虽然可以达到目的，但是重新连接过程要消耗很多时间，有什么好的解决方法吗

时间： 2024-11-18 14:19:07

在spark streaming中实时更新mllib的ALS算法的模型遇到的问题！的相关文章

如何基于Spark Streaming构建实时计算平台

1.前言随着互联网技术的迅速发展,用户对于数据处理的时效性.准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战. 自2015年携程实时计算平台搭建以来,经过两年多不断的技术演进,目前实时集群规模已达上百台,平台涵盖各个SBU与公共部门数百个实时应用,全年JStorm集群稳定性达到100%.目前实时平台主要基于JStorm与Spark Streaming构建而成,相信关注携程实时平台的朋友在去年已经看到一篇关于携程实时平台的分享:

Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming.Spark SQL.MLlib.GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑.这也得益于Scala编程语言的简洁性.这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算. 我们的应用场景是分析用户使用手机App的行为,描述如下所示: 手机客户端会收集用户的行为事件(我们以点击

【Spark Summit East 2017】使用Kafka Connect和Spark Streaming构建实时数据管道

本讲义出自Ewen Cheslack Postava在Spark Summit East 2017上的演讲,主要介绍了面对使用Spark Streaming构建大规模实时数据管道的挑战,Kafka项目最近推出了新的工具-- Kafka Connect,该工具将帮助简化从Kafka导入和导出数据,Ewen Cheslack Postava分享了如何使用Kafka Connect和Spark Streaming构建实时数据管道.

spark streaming 中使用saveAsNewAPIHadoopDataset方法写入hbase中，从checkpoint中恢复时报错

问题描述最近写了一个从Kafka读取数据,处理之后通过saveAsNewAPIHadoopDataset方法写入到hbase中,正常运行的时候没有报错,写入也正常,但是当手动停止应用,再次执行(通过Checkpoint恢复)的时候就会报错,跪求大神们解答!!报错信息如下:15/12/2216:26:52WARNVerifiableProperties:Propertyserializer.classisnotvalid15/12/2216:26:57WARNFileOutputCommitte

【Spark Summit EU 2016】从使用Spark Streaming中所学到的经验

本讲义出自Miklos Christine在Spark Summit EU 2016上的演讲,简单介绍了DataBricks,并主要介绍了Spark Streaming的总体架构设计,Spark Streaming与结构化的流计算相比的不同之处以及目前阶段Spark Streaming的5大问题:类型不匹配.无法找到主要偏移量.toDF不属于RDD成员.任务不是序列化的以及有关JSON记录的相关问题.

Spark streaming 做实时数据处理的问题

问题描述现在基于sparkstreaming做在线查询,按照我看完资料的认识,streamingcontext启动后,就不能再添加新的streaming计算或操作进去,这样一来,如果我想要实时做多种查询,是否意味着必须反复重启streamingContext才能实现?因为对storm不是很了解,不知道storm这方面是否有实现的方法?希望有经验的朋友能解答一下. 解决方案解决方案二:对查询条件做逻辑判断,根据你传入的查询类型,调用不同的计算解决方案三:引用1楼dlh13061201的回复:

《Spark官方文档》Spark Streaming编程指南（一）

Spark Streaming编程指南概览 Spark Streaming是对核心Spark API的一个扩展,它能够实现对实时数据流的流式处理,并具有很好的可扩展性.高吞吐量和容错性.Spark Streaming支持从多种数据源提取数据,如:Kafka.Flume.Twitter.ZeroMQ.Kinesis以及TCP套接字,并且可以提供一些高级API来表达复杂的处理算法,如:map.reduce.join和window等.最后,Spark Streaming支持将处理完的数据推送到文

《Spark官方文档》Spark Streaming编程指南（二）

累加器和广播变量首先需要注意的是,累加器(Accumulators)和广播变量(Broadcast variables)是无法从Spark Streaming的检查点中恢复回来的.所以如果你开启了检查点功能,并同时在使用累加器和广播变量,那么你最好是使用懒惰实例化的单例模式,因为这样累加器和广播变量才能在驱动器(driver)故障恢复后重新实例化.代码示例如下: Scala Java Python object WordBlacklist { @volatile private var ins

Spark修炼之道（进阶篇）——Spark入门到精通：第十节 Spark Streaming（一)

本节主要内容本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operations Spark流式计算简介 Spark Streaming相关核心类入门案例 1. Spark流式计算简介 Hadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐.实时网站性能分析等,流式计算可以解决这些问题.目前有三种比较常

猜你喜欢

微信浏览器安卓机无法保存canvas转成img格式的图片

问题描述微信浏览器安卓机无法保存canvas转成img格式的图片大家好,如何解决安卓机微信内置浏览器无法保存canvas转成img格式的图片 (长按图片,无法发送给朋友.保存到手机,甚至无法收藏) ...

CSS{position:fixed}让HTML固定在浏览器的某个位置

文章简介:跨浏览器的CSS固定定位{position:fixed}. 不知道您是否留意了,浏览本站时,浏览器右下角有一个标着top的黑色直角三角形,可以点击它返回到正在浏览的网页页眉.当滚动网页时,它 ...

网站运营探讨(三):浅谈行业网站的运营

网站运营导读:前面讨论了关于地方门户网站的一些问题,本次网站运营探讨俱乐部邀请搜材网CEO刘登金为我们谈谈行业网站运营的一些实际操作问题. 由于网站运营是比较新的概念,在这之前一直没有一个明确的概念 ...

MySQL 的 Daemon 启动参数

mysql 假设你的启动脚本是/etc/init.d/mysql 那么找到$bindir/safe_mysqld这行,加上如下参数 -O max_connections=1000 -O wait_ti ...

如何搭建网站的可信度?

一个做咨询的朋友问起了这样的一个问题, "我怎么让新用户访问了我的网站就拿起电话来联系我?", 这个问题看起来很简单, 但又好像隐藏了很多问题.这个问题的本意并不希望接到的只是骚扰 ...

结合中国移动新举措，探讨站长成功新起点！

站长 [引题一]:互联网不愧为一个英雄辈出,变幻莫测的大舞台.当初简单到没有人愿意做的网址站,没想到卖到那么高的价钱,令人垂涎.这个例子几乎成了站长发家的经典案例:当初纯粹是因为兴趣而做的软件下载站点 ...

PHP文件缓存的性能测试

前言: 在开发MooPHP的过程中,为了寻找更为高效的缓存方式,对两种最常用的缓存方式进行了测试. PHP常用缓存方式: 第一种,把需要缓存的数据进行处理,形成PHP可以直接执行的文件.在需要缓存数据 ...

MAC版Keynote怎么使用?

MAC版Keynote怎么使用? 首先,打开电脑,在Dock中找到Keynote,点击打开在弹出的如下界面中点击新建文稿在接下来的界面中,顶部可以选择宽幅还是标准,底部选 ...

IE浏览器脱机浏览网页教程

脱机浏览是指计算机在没有Internet连接时阅读Web网页的内容.因此,用户在访问某个网页的时候,可以直接将其设置为脱机浏览,这样就可以不用担心突然掉线而无法浏览网页了. 脱机浏览网页的具体方法是: ...

Windows8.1 系统常用快捷键介绍大全

电脑的使用过程中快捷键为我们提供了很大的方便,高效速度快,节省了时间,很多用户都安装了新的win8.1系统中的快捷键,但对此系统的快捷键的了解却是甚少,在运用时,不能更好的去运用它,达不到快速操作 ...

Win7系统蓝屏故障0x0000007f如何解决

1.下载[蓝屏代码查阅器],输入对应的代码查阅一下,经查,这个蓝屏出错代码的缘由是: 经查,这个蓝屏出错代码的缘由是:代码: 0x0000007f 原因: 找不到指定的程序. ①因为没有提示指定谁 ...

处理win8安装软件时出现乱码的状况

相信不管是Windows的什么系统都会出现过乱码的现象,但是在安装一些软件的时候,你会发现有的软件是英文版,而又不得不用.而且也并不是所以的中文软件在英文系统中都可以完美的显示的,此时此刻造成乱码 ...

Win8.1 32位和64位的区别

有关Win8.1系统32位和64位的区别,其实就是32位系统和64位系统的区别,概括的说,主要有以下及大区别. ★设计初衷不同 64位操作系统的设计初衷是为了满足机械设计和分析.三维动画.视频编辑 ...

优化大师注册信息清理

注册表是Windows操作系统.硬件设备以及应用程序得以正常运行和保存设置的一个树状分层结构的数据库系统.它记录了计算机的硬件配置和用户安装在机器上的软件信息. 一些应用程序在删除后,没有删除注册表中 ...

如何修改WinPE的OEM信息方法

人多多少少都有一些虚荣心,想不想打造属于自己的一份WinPE呢?其实通过修改别人PE的OEM信息即可变成"自己"的了,下面就来山寨一下吧. 一.提取文件从WinPE镜像光盘中提取 ...

先知白帽大会报名启动，组委会向你投来一本参会指南

2016年初,先知平台诞生. 1年过去了,3000多个实名认证通过的白帽子和20多家安全公司,在先知平台上为上百家客户提供着私密.可信.高效的安全众测服务.帮助企业提前发现了上万个安全隐患,测试效率提 ...

整合数据百分点发布用户标签管理系统

文章讲的是整合数据百分点发布用户标签管理系统,2015年12月23日,中国领先的大数据技术与应用服务商百分点集团发布用户标签管理系统,作为一款生产.管理用户标签生命周期的大数据工具,该系统旨在基于百 ...

优化程序之前，可用Jamon来监测你的Spring应用

/** *作者:张荣华(ahuaxuan) *2007-8-15 *转载请注明出处及作者 */ 前两天在看Spring内置的拦截器的时候,发现了一个之前没有注意的类:org.springframewo ...

SEO的三个关键词是内容、推广、用户体验

摘要: SEO的三个关键词是内容.推广.用户体验.作为SEO重点之一的推广,它的效果是直接关系到SEO的最终结果,可以说推广其实间接决定了SEO的成功.不过,推广的方式有很多种,在SEO的过 SEO的 ...

JAVA赋值DEMO分析

对主数据类型的赋值是非常直接的.由于主类型容纳了实际的值,而且并非指向一个对象的句柄,所以在为其赋值的时候,可将来自一个地方的内容复制到另一个地方. 例如,假设为主类型使用"A=B" ...

DockOne微信分享（七十三）：SAP Anywhere产品背后CD的实现

本文讲的是DockOne微信分享(七十三):SAP Anywhere产品背后CD的实现[编者的话]本次分享包括以下4方面: SAP Anywhere产品特性及开发团队简介--CD需要解决的问题是什么 ...

《基于模型的软件开发》——1.4　技术革新

1.4 技术革新在OO范式之前,即使是编程的"黑暗时代",也并非一片混沌.学术界一直致力于调整数学运算使其能够应用于计算环境下的实践.经过认真思考,学术界提供了一种数学通用语言作 ...

移动开发-android如何实现实时视频处理

问题描述 android如何实现实时视频处理例如qq视频聊天,手机上能实时看到另外一个摄像头所拍摄的画面,应该怎样android实现?有没有什么现成的框架可以使用? 解决方案看一下webrtc相关 ...

Linux站群rsync同步设置方法

说到"同步",不得不提的利器就是rsync,今天就来说说我从这个工具中看到的同步的艺术. 1. 配置同步源安装rsync:yum -y install rsync xinetd ...

山寨“卫星锅”仍在违法卖

厂家竟推出破解升级后的二代卫星锅继续销售荆楚网消息 (楚天都市报) 昨日上午,记者在高新区团山镇看到,不少山寨"卫星锅"仍在违法销售.据了解,本月5日凌晨开始,中星9号卫星对传输 ...

java-创建线程对象时，integer 的作用是什么？

问题描述创建线程对象时,integer 的作用是什么? public class TestSale { public static void main(String[] args) { *SaleT ...

IO

一.概述 IO 系统的分层: 1. 三层结构上图层次比较多,但总的就是三部分.磁盘 (存储). VM (volumes management 卷管理)和文件系统 .专有名词不好理解,打个比方说: ...

定制404错误页面，并发信给管理员的程序_php基础

如果您的用户找不到他要的页面,如何给他一个友好的答复,并且你也知道发生了这个错误呢,看看下面这段程序,是用来定制404错误页面和发通知给网管的好东西.---teaman翻译整理 <?php # ...

js如何取消事件冒泡_javascript技巧

复制代码代码如下: function stopBubble(e) { //如果传入了对象,那么就是非IE浏览器,才用W3C标准方法 if (e || e.stopPropagation) { e.s ...

做个无限分类和TreeView控件实现的效果一样有代码更好。。谢谢

问题描述同题解决方案解决方案二: 解决方案三:下载梅花雪树解决方案四:http://www.lyfgw.gov.cn/GovInfo.aspx解决方案五:引用1楼yfqvip的回复: http: ...

热搜

© 2025 iVAN | info#iamivan.net | 11 q. 0.029 s.