StreamingPro

Declarative workflows for building Spark Streaming

Spark Streaming

Spark Streaming is an extension of the core Spark API that enables stream processing from a variety of sources.Spark is a extensible and programmable framework for massive distributed processing of datasets,called Resilient Distributed Datasets (RDD). Spark Streaming receives input data streams and divides the data into batches, which are then processed by the Spark engine to generate the results.Spark Streaming data is organized into a sequence of DStreams,represented internally as a sequence of RDDs.

StreamingPro

StreamingPro is not a complete application, but rather a extensible and programmable framework for spark streaming (also include spark,storm)that can easily be used to build your streaming application.

StreamingPro also make it possible that all you should do to build streaming program is assembling components(eg. SQL Component) in configuration file.

Features

Pure Spark Streaming(Or normal Spark) program (Storm in future)
No need of coding, only declarative workflows
Rest API for interactive
SQL-Oriented workflows support
Data continuously streamed in & processed in near real-time
dynamically CURD of workflows at runtime via Rest API
Flexible workflows (input, output, parsers, etc...)
High performance
Scalable

Documents

Architecture

Snip20160510_3.png

Declarative workflows

Snip20160510_4.png

Implementation

Snip20160510_1.png

时间： 2024-07-31 16:13:05

StreamingPro的相关文章

StreamingPro使用教程

准备工作下载Spark 1.6.2 下载StreamingPro 我们假设你下载的StreamingPro包在/tmp目录下. 复制如下模板 { "esToCsv": { "desc": "测试", "strategy": "streaming.core.strategy.SparkStreamingStrategy", "algorithm": [], "ref"

StreamingPro 再次支持 Structured Streaming

前言之前已经写过一篇文章,StreamingPro 支持Spark Structured Streaming,不过当时只是玩票性质的,因为对Spark 2.0+ 版本其实也只是尝试性质的,重点还是放在了spark 1.6 系列的.不过时间在推移,Spark 2.0+ 版本还是大势所趋.所以这一版对底层做了很大的重构,StreamingPro目前支持Flink,Spark 1.6+, Spark 2.0+ 三个引擎了. 准备工作下载streamingpro for spark 2.0的包,然后

StreamingPro 支持多输入，多输出配置

前言最近正好有个需求,就是从不同的数据库以及表里拉出数据,经过一定的处理放到ES里供查询,最好还能放个到parquet里,这样可以支持更复杂的SQL.之前StreamingPro是只能配置一个数据源的,所以做了些改造,方便配置多个数据源,以及多个写出. 最新的下载地址: https://pan.baidu.com/s/1eRO5Wga依然的,比较大,因为现在他还能支持Thrift JDBC /Rest SQL: 使用StreamingPro 快速构建Spark SQL on CarbonDat

StreamingPro添加Scala script 模块支持

SQL 在解析字符串方面,能力还是有限,因为支持的算子譬如substring,split等有限,且不具备复杂的流程表达能力.我们内部有个通过JSON描述的DSL引擎方便配置化解析,然而也有一定的学习时间成本. 我们当然可以通过SQL的 UDF函数等来完成字符串解析,在streamingpro中也很简单,只要注册下你的UDF函数库即可: "udf_register": { "desc": "测试", "strategy": &q

StreamingPro 简化流式计算配置

前言前些天可以让批处理的配置变得更优雅StreamingPro 支持多输入,多输出配置,现在流式计算也支持相同的配置方式了. 另外未来等另外一个项目稳定,会释放出来配合StreamingPro使用,它可以让你很方便的读写HBase,比如可以为HBase 表添加mapping,类似ES的做法,也可以不用mapping,系统会自动为你创建列(familly:column作为列名),或者将所有列合并成一个字段让你做处理. 配置首先需要配置源: { "name": "strea

使用StreamingPro 快速构建Spark SQL on CarbonData

前言 CarbonData已经发布了1.0版本,变更还是很快的,这个版本已经移除了kettle了,使得部署和使用变得很简单,而且支持1.6+ ,2.0+等多个Spark版本. StreamingPro可以使得你很简单通过一个命令就能体验Carbondata,并且支持Http/JDBC的访问形态. 下载Spark发行版比如我下载后的版本是这个: spark-1.6.3-bin-hadoop2.6. 下载StreamingPro 地址在这: https://pan.baidu.com/s/1eR

StreamingPro支持Flink的流式计算了

前言有的时候我们只要按条处理,追求实时性而非吞吐量的时候,类似Storm的模式就比较好了.Spark 在流式处理一直缺乏改进,而Flink在流式方面做得很棒,两者高层的API也是互相借鉴,容易形成统一的感官,所以决定让StreamingPro适配Flink,让其作为StreamingPro底层的流式引擎. StreamingPro自身设计之初就是为了支持多引擎的,所以改造成本很低,昨天花了一下午,晚上加了会班就重构完了.这次增强可以让我司的流式引擎有了新的选择. 准备工作下载安装包为了跑起

StreamingPro 支持Spark Structured Streaming

前言 Structured Streaming 的文章参考这里:Spark 2.0 Structured Streaming 分析.2.0的时候只是把架子搭建起来了,当时也只支持FileSource(监控目录增量文件),到2.0.2后支持Kafka了,也就进入实用阶段了,目前只支持0.10的Kafka.Structured Streaming 采用dataframe API,并且对流式计算重新进行了抽象,个人认为Spark streaming 更灵活,Structured Streaming 在

StreamingPro 可以暴露出原生API给大家使用

我们知道StreamingPro 是一个完全SQL/Script化的,基于Spark平台的一套生产力工具.但是不可避免的,我们可能希望直接操作SqlContext或者使用原生的DataFrame API. 这里我们通过script 让大家支持这个功能: { "name": "batch.script.df", "params": [ { "script": "context.sql(\"select a a

如何在命令行中指定StreamingPro的写入路径

如何命令行指定输如输出的参数? 下面有个输出的例子: { "name": "stream.outputs", "params": [ { "name":"jack", "format": "jdbc", "path": "-", "driver":"com.mysql.jdbc.Driver&quo

猜你喜欢

.Net Framework 4.0 功能介绍

.Net Framework 4.0 功能介绍微软发布了 Visual Studio 2010 和 .NET Framework 4.0 的Beta 2测试版,微软往Framework 4.0里又塞 ...

PHP读取汉字点阵数据

汉字|数据心血来潮,想模仿LCD的显示效果,写了个从点阵字库中提取汉字点阵数据的一段php脚本. 背景知识:简体中文国标字库(1981年订,中国大陆).7445个字符,其中汉字6773个,包括一级汉 ...

细说360buy的内部结构系列 - title标题篇(一)

在前几天的时候,笔者完成"从网站架构看淘鞋网布局seo的方式"系列,这几天就写一下对于京东360buy的内部结构系列,因为在360buy 的体系数目庞大,结构繁多,很多点都需要我们 ...

如何捆绑及解除IP地址和网卡的MAC地址

在网络管理中,IP地址盗用现象经常发生,不仅对网络的正常使用造成影响,同时由于被盗用的地址往往具有较高的权限,因而也对用户造成了大量的经济上的损失和潜在的安全隐患.有没有什么措施能最大限度地避免此类现 ...

谈谈Silverlight 2中的视觉状态管理 Part2

概述在WPF和Silverlight中的控件模板支持自定义控件的观感,所谓的外观,指控件的视觉效果:而感觉则是控件交互的响应性,如在控件上按下鼠标.控件获得焦点等状态的改变.微软在Silverli ...

WinCE BSP的BIB文件介绍

在WinCE中使用的一个重要的文件就是BIB文件,全称Binary Image Builder File.在WinCE的编译过程中会用到BIB文件,应该是在最后的Makeimg阶段.所有的BIB文件会 ...

ChineseLunisolarCalendar 农历日期

在.net2.0 的版本中的 System.Globalization.ChineseLunisolarCalendar 是针对中国的日历类,公历与中国传统农历纪年之间的相互转换,利用它可以计算天干 ...

光影魔术手晚霞渲染有什么用

光影魔术手晚霞渲染这个功能不仅局限于天空,也可以运用在人像.风景等情况.使用以后,亮度呈现暖红色调,暗部则显蓝紫色,画面的色调对比很鲜明,色彩十分艳丽.暗部细节亦保留得很丰富.同时提供用户对色调平 ...

sql条件查询+排序

一条sql为: select * from user where gender='1' order by id desc; 加索引方式: 1:为gender添加索引 2:为id添加索引 3:为id ...

Java中的堆、栈和常量池

1.寄存器最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制. 2. 栈存放基本类型的变量数据和对象的引用,但对象本身不存放在栈中,而是存放在堆(new 出来的对象)或者常量池中( ...

Excel2007文档逆序打印设置

在Word2007中,只要依次点击左上角Office徽标→打印,在打开的"打印"设置窗口中点击"选项"按钮,在接着出现的"Word选项"窗 ...

linux下ping命令使用详解

•ping命令一般用于检测网络通与不通,也叫时延,其值越大,速度越慢PING(PacketInternetGrope),因特网包探索器,用于测试网络连接量的程序. •ping发送一个ICMP回声请 ...

jquery .ajax方法异步表单接收服务器返回的数据

$(document).ready( function () { $.ajax({ type: "Get", //提交的方式 get/post url: "Check ...

PPT中显示对齐网格

在PPT界面中任意位置点击右键,选择"网格和参考线". 在弹出的对话框中,间距设置为0.1, 勾选屏幕上显示网格选项. 在界面中就显示了网格.这样在元素对齐的时候就有了参考.每 ...

Excel表格制作怎么把标题的表格线去掉

方法一.打开excel2003版本,打开之后选中表格然后依次点击"文件--页面设置---工作表",在工工作表上面的打印中将"网格线"前面的勾给去除掉即可.如 ...

千千静听音乐播放器怎么新建播放列表?

千千静听播放器,是一款小巧省资源的播放器,基本上通吃所有的windows操作系统,支持xp.vista.7.8.8.1.10等.下面介绍如何添加播放列表,并添加音乐. 1.找到千千静听图标,并打开 ...

格式工厂如何修改皮肤和语言

格式工厂是一款众所周知的视频格式转换器,可以帮助我们转换视频的格式,不管是专业的视频剪辑师还是业余的摄影家都热衷于使用这款软件,最主要的原因还是其简单易上手,而且专业功能强大.在格式工厂中更是提供 ...

aspx-定义一个变量user使这个变量为当前登陆人帐号

问题描述定义一个变量user使这个变量为当前登陆人帐号在Login.aspx.cs中,在用户登陆时,记录了登陆人的帐号UserName: Session["UID"] = UI ...

理解RESTful架构（转）

越来越多的人开始意识到,网站即软件,而且是一种新型的软件. 这种"互联网软件"采用客户端/服务器模式,建立在分布式体系上,通过互联网通信,具有高延时(highlatency). ...

在 Linux 中设置 sudo 的十条 sudoers 实用配置

在 Linux 和其他的类 Unix 操作系统中,只有 root 用户可以运行所有的命令,才能在系统中执行那些需要鉴权的操作,比如安装.升级和移除软件包.创建用户和用户组.修改系统重要的配置文件等等. ...

c++ 编程问题-求一个VC下实现的C++代码

问题描述求一个VC下实现的C++代码曲线绘制根据以下微分方程可以产生任意多的实时数据: 其中参数 ,初始条件取 ,且当时.用4阶龙格库塔方法对上述方程实现离散化. 要求显示实时数据曲线,并能用 ...

在vmware12虚拟机中安装不了windows系统,win7,win8都不行

问题描述在vmware12虚拟机中安装不了windows系统,win7,win8都不行我在win7 64位专业版的电脑中安装了vmware 12 虚拟机. 我在虚拟机中安装win7或者是win8, ...

spring3.1.1+ibatis3.1.1+struts2.2.3框架搭建报错

问题描述我的 applicationContext.xml <?xml version="1.0" encoding="UTF-8" ?>< ...

将WEB表格进行到底（必看）---解决新手表格处理难题

问题描述转至http://q.hexun.com/lotus/default.html<tableborderrules=colscellspacing=0align=left>可以隐藏 ...

UIEvent&nbsp;UIResponder&nbsp;UI_04

1.事件(UIEvent),是由硬件设备捕捉到用户对设备的操作,把这个操作抽象成一个事件对象 ios中三大事件:触Touches摸晃动事件Motion,远程控制事件RemoteControl: ...

SQL*Plus 执行脚本时传递参数(@script_name var1,var2)

在使用sqlplus执行sql脚本时,经常碰到向脚本传递参数的情形.类似于shell脚本的参数传递,我们同样可以向sql脚本传递参数,其方法是脚本后面直接跟多个连续的参数并以空格分开.本文 ...

软件开发-图片中的代码输出结果怎么会是4？

问题描述图片中的代码输出结果怎么会是4? 我又没有让p指向某个内存空间,怎么就输出4了?开发-图片中的代码输出结果怎么会是4?-软件设计开发输出清单"> 解决方案 4是Ca的大小,C ...

java swing做的登陆界面，怎样判断数据库中用户名和密码？

问题描述 javaswing做的登陆界面,怎样判断数据库中用户名和密码?之前代码用户名和密码是定死的,现在想改成从数据库的表中读出Name和Password字段与文本框里输入的比较..在网上差了很多, ...

五步教你轻松搞定数据中心容量规划问题

无论使用大型机或云计算,数据中心容量规划依然严峻,要确保拥有业务所需的足够IT资源. 数据中心管理者面临着相同的挑战:业务需要更多的计算资源,但同时也希望降低能耗,冷却和其他设施费用.当走到评估是否需 ...

Apache服务器开启伪静态并支持.htaccess

mod_rewrite是Apache的一个非常强大的功能,它可以实现伪静态页面.下面我详细说说它的使用方法!对初学者很有用的哦! mod_rewrite是Apache的一个非常强大的功能,它可以实现伪 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.033 s.