Spark streaming 做实时数据处理的问题

问题描述

现在基于sparkstreaming做在线查询,按照我看完资料的认识,streamingcontext启动后,就不能再添加新的streaming计算或操作进去,这样一来,如果我想要实时做多种查询,是否意味着必须反复重启streamingContext才能实现?因为对storm不是很了解,不知道storm这方面是否有实现的方法?希望有经验的朋友能解答一下。

解决方案

解决方案二:
对查询条件做逻辑判断,根据你传入的查询类型,调用不同的计算
解决方案三:
引用1楼dlh13061201的回复:

对查询条件做逻辑判断,根据你传入的查询类型,调用不同的计算

foreachrdd里解析出每条数据,然后在foreachrdd里写rdd的逻辑,不用写Dstream的逻辑

时间: 2024-12-30 12:31:01

Spark streaming 做实时数据处理的问题的相关文章

如何基于Spark Streaming构建实时计算平台

1.前言 随着互联网技术的迅速发展,用户对于数据处理的时效性.准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战. 自2015年携程实时计算平台搭建以来,经过两年多不断的技术演进,目前实时集群规模已达上百台,平台涵盖各个SBU与公共部门数百个实时应用,全年JStorm集群稳定性达到100%.目前实时平台主要基于JStorm与Spark Streaming构建而成,相信关注携程实时平台的朋友在去年已经看到一篇关于携程实时平台的分享:

Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming.Spark SQL.MLlib.GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑.这也得益于Scala编程语言的简洁性.这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算. 我们的应用场景是分析用户使用手机App的行为,描述如下所示: 手机客户端会收集用户的行为事件(我们以点击

在spark streaming中实时更新mllib的ALS算法的模型遇到的问题!

问题描述 在spark streaming中实时更新mllib的ALS算法的模型遇到的问题! 在spark streaming中使用ALS算法,实现模型的实时更新有人了解吗? 总是出ERROR [dag-scheduler-event-loop] scheduler.DAGSchedulerEventProcessLoop (Logging.scala:logError(96)) - DAGSchedulerEventProcessLoop failed; shutting down Spark

【Spark Summit East 2017】 使用Kafka Connect和Spark Streaming构建实时数据管道

本讲义出自Ewen Cheslack Postava在Spark Summit East 2017上的演讲,主要介绍了面对使用Spark Streaming构建大规模实时数据管道的挑战,Kafka项目最近推出了新的工具-- Kafka Connect,该工具将帮助简化从Kafka导入和导出数据,Ewen Cheslack Postava分享了如何使用Kafka Connect和Spark Streaming构建实时数据管道.

《Spark官方文档》Spark Streaming编程指南(一)

Spark Streaming编程指南 概览   Spark Streaming是对核心Spark API的一个扩展,它能够实现对实时数据流的流式处理,并具有很好的可扩展性.高吞吐量和容错性.Spark Streaming支持从多种数据源提取数据,如:Kafka.Flume.Twitter.ZeroMQ.Kinesis以及TCP套接字,并且可以提供一些高级API来表达复杂的处理算法,如:map.reduce.join和window等.最后,Spark Streaming支持将处理完的数据推送到文

利用Spark Streaming实现分布式采集系统

前言 前两天我刚在自己的一篇文章中鼓吹数据天生就是流式的,并且指出: 批量计算已经在慢慢退化,未来必然是属于流式计算的,数据的流动必定是由数据自己驱动流转的. 而Spark Streaming 在上层概念上,完美融合了批量计算和流式计算,让他们你中有我,我中有你,这种设计使得Spark Streaming 作为流式计算的一个载体,同时也能作为其他一些需要分布式架构的问题提供解决方案. Spark Streaming 作为一些分布式任务系统基础的优势 天然就是分布式的,不用再为实现分布式协调而蛋疼

Spark Streaming 数据产生与导入相关的内存分析

前言 我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现. 一个大致的数据接受流程 一些存储结构的介绍 哪些点可能导致内存问题,以及相关的配置参数 另外,有位大牛写了Spark Streaming 源码解析系列,我觉得写的不错,这里也推荐下. 我在部门尽力推荐使用Spark Streaming做数据处理,目前已经应用在日志处理,机器学习等领域.这期间也遇到不少问题,尤其是Kafka在接受到的数据量非常大的情况下,会有一些内存相关的问题. 另外特别说明下,

Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark Streaming(一)

本节主要内容 本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operations Spark流式计算简介 Spark Streaming相关核心类 入门案例 1. Spark流式计算简介 Hadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐.实时网站性能分析等,流式计算可以解决这些问题.目前有三种比较常

Spark Streaming vs. Kafka Stream 哪个更适合你

译者注:本文介绍了两大常用的流式处理框架,Spark Streaming和Kafka Stream,并对他们各自的特点做了详细说明,以帮助读者在不同的场景下对框架进行选择.以下是译文.流式处理的需求每天都在增加,仅仅对大量的数据进行处理是不够的.数据必须快速地得到处理,以便企业能够实时地对不断变化的业务环境做出反应.流式处理是持续而又并发地对数据进行实时处理.流式处理是处理数据流或传感器数据的理想平台,而"复杂事件处理"(CEP)则利用了逐个事件处理和聚合等技术.对于实时数据处理功能,