使用Spark SQL构建批处理程序

前言

今天介绍利用StreamingPro完成批处理的流程。

准备工作

下载StreamingPro

README中有下载地址

我们假设您将文件放在了/tmp目录下。

填写配置文件

实例一,我要把数据从ES导出到HDFS,并且形成csv格式。

gist

启动StreamingPro

Local模式：

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
/tmp/streamingpro-0.2.1-SNAPSHOT-dev-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path file:///tmp/test.json

访问

http://127.0.0.1:4040

可进入Spark UI

集群模式：

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master yarn-cluster \
--name test \
/tmp/streamingpro-0.2.1-SNAPSHOT-dev-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path hdfs://cluster/tmp/test.json

这里需要注意的是，配置文件并蓄放到HDFS上，并且需要协商hdfs前缀。这是一个标准的Spark 批处理程序

时间： 2024-11-30 08:14:51

使用Spark SQL构建批处理程序的相关文章

使用Spark SQL构建交互式查询引擎

前言 StreamingPro 原来仅仅是用来作为Spark Streaming的一个配置化+SQL封装,然而不经意间,已经涵盖了批处理,交互式查询等多个方面.今天就讲讲如何使用StreamingPro构建一个交互式查询引擎. 准备工作下载StreamingPro README中有下载地址如果你使用了 Spark 2.0 版本,则要下载对应页面上的Spark 安装包.因为目前Spark 2.0 默认支持Scala 2.11.我提供了一个机遇Scala 2.10版本的. 我们假设您将文件放在

使用Spark SQL 构建流式处理程序

前言今天介绍利用 StreamingPro 构建流式(Spark Streaming)计算程序准备工作下载StreamingPro README中有下载地址我们假设您将文件放在了/tmp目录下. 填写配置文件实例一,Nginx日志解析后存储到ES gist 测试样例, 模拟数据,并且单机跑起来 gist 假设你使用的是第二个配置文件,名字叫做test.json,并且放在了/tmp目录下. 启动StreamingPro Local模式: cd $SPARK_HOME ./bin/spar

使用StreamingPro 快速构建Spark SQL on CarbonData

前言 CarbonData已经发布了1.0版本,变更还是很快的,这个版本已经移除了kettle了,使得部署和使用变得很简单,而且支持1.6+ ,2.0+等多个Spark版本. StreamingPro可以使得你很简单通过一个命令就能体验Carbondata,并且支持Http/JDBC的访问形态. 下载Spark发行版比如我下载后的版本是这个: spark-1.6.3-bin-hadoop2.6. 下载StreamingPro 地址在这: https://pan.baidu.com/s/1eR

spark例子JavaSparkSQL，使用IDEA工具打包的时候报错程序包org.apache.spark.sql不存在

问题描述在使用intellijidea测试一个简单的spark自带的一个例子JavaSparkSQL,打包或者知心runmain方法都会出现这样的一个问题,只要包含sql的导入的地方就会打包或者运行的时候遇到这个错误,请问有遇到过我这种问题的人吗,或者该怎么解决这个问题呢?Information:15-9-10下午4:25-Compilationcompletedwith21errorsand0warningsin978ms/root/workspace/MySpace/src/JavaSpa

Spark SQL中的DataFrame

在2014年7月1日的 Spark Summit 上,Databricks 宣布终止对 Shark 的开发,将重点放到 Spark SQL 上.在会议上,Databricks 表示,Shark 更多是对 Hive 的改造,替换了 Hive 的物理执行引擎,因此会有一个很快的速度.然而,不容忽视的是,Shark 继承了大量的 Hive 代码,因此给优化和维护带来了大量的麻烦.随着性能优化和先进分析整合的进一步加深,基于 MapReduce 设计的部分无疑成为了整个项目的瓶颈. 详细内容请参看 Sh

《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南（三）

JSON数据集 Scala Java Python R Sql Spark SQL在加载JSON数据的时候,可以自动推导其schema并返回DataFrame.用SQLContext.read.json读取一个包含String的RDD或者JSON文件,即可实现这一转换. 注意,通常所说的json文件只是包含一些json数据的文件,而不是我们所需要的JSON格式文件.JSON格式文件必须每一行是一个独立.完整的的JSON对象.因此,一个常规的多行json文件经常会加载失败. // sc是已有的Sp

Spark修炼之道（进阶篇）——Spark入门到精通：第八节 Spark SQL与DataFrame（一)

本节主要内宾 Spark SQL简介 DataFrame 1. Spark SQL简介 Spark SQL是Spark的五大核心模块之一,用于在Spark平台之上处理结构化数据,利用Spark SQL可以构建大数据平台上的数据仓库,它具有如下特点: (1)能够无缝地将SQL语句集成到Spark应用程序当中 (2)统一的数据访问方式 DataFrames and SQL provide a common way to access a variety of data sources, includ

为什么说Spark SQL远远超越了MPP SQL

这里说的并不是性能,因为我没尝试对比过(下文会有简单的说明),而是尝试从某种更高一层次的的角度去看,为什么Spark SQL 是远远超越MPP SQL的. Spark SQL 和 MPP SQL 其实不在一个维度上.简而言之, MPP SQL 是 Spark SQL 的一个子集 Spark SQL 成为了一种跨越领域的交互形态 MPP SQL 是 Spark SQL 的一个子集 MPP SQL 要解决的技术问题是海量数据的查询问题.这里根据实际场景,你还可以加上一些修饰词汇,譬如秒级,Ad-ho

如何基于Spark Streaming构建实时计算平台

1.前言随着互联网技术的迅速发展,用户对于数据处理的时效性.准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战. 自2015年携程实时计算平台搭建以来,经过两年多不断的技术演进,目前实时集群规模已达上百台,平台涵盖各个SBU与公共部门数百个实时应用,全年JStorm集群稳定性达到100%.目前实时平台主要基于JStorm与Spark Streaming构建而成,相信关注携程实时平台的朋友在去年已经看到一篇关于携程实时平台的分享: