InfoSphere Streams 3.0连接Streams作业和DataStage作业

作为 InfoSphere Streams 3.0 和 InfoSphere Information Server 9.1 版本的一部分,这两款产品都进行了改进,让 Streams 应用程序和 DataStage 作业之间的集成变得更容易。

本文提供了解释如何在 Streams 应用程序和 DataStage 作业之间创建端到端集成场景的技术细节。阅读本文后您将熟悉以下概念:

从 Streams 应用程序将数据发送到 DataStage 作业,包括如何: 创建或修改一个现有 Streams SPL 应用程序,从而将数据流发送到一个 DataStage 作业。 导出修改后的 Streams 应用程序元数据,
然后将其导入 Information Server 环境。 创建或修改可使用 Streams 应用程序数据的现有 DataStage 作业。 将数据从 DataStage 作业发送到 Streams 应用程序,包括如何: 创建或修改一个现有 DataStage 作业,从而将数据流发送到一个 Streams 应用程序。 导出 DataStage 作业元数据,并使用导出的元数据生成 Streams 应用程序 SPL 存根代码。 使用所生成的 SPL 存根代码创建或修改现有 Streams 应用程序。

本文是本系列文章的第 1 部分,这些文章将帮助您集成两款核心 IBM ">Big Data 计划产品。第 1 部分重点介绍一个简单场景,帮助您熟悉集成这些产品的基本技术细节。第 2 部分将深入探讨可用于将 Streams 近乎实时的分析功能连接到 DataStage ETL 引擎的元数据接口及其丰富的连接特性。

集成架构

InfoSphere Streams 和 InfoSphere DataStage 之间的集成是通过大量设计时间和 Information Server 9.1 与 InfoSphere DataStage Integration Toolkit for Streams 提供的运行时组件完成的。

IBM InfoSphere DataStage Integration Toolkit 提供可推动 IBM InfoSphere Streams 和 IBM InfoSphere DataStage Streams 实现集成的操作符与命令。InfoSphere DataStage 和 InfoSphere Streams 应用程序的集成涉及数据流在应用程序之间的流动以及配置它们来使用这些数据。通过 DataStage 端的 InfoSphere Stream 连接器和 Streams 端的 DSSource 操作符或 DSSink 操作符来完成集成工作。

通过将数据从 IBM InfoSphere DataStag 发送到 InfoSphere Streams,在通过 IBM InfoSphere DataStage 将数据加载到数据仓库的同时,InfoSphere Streams 可执行近乎实时的分析处理(RTAP)。或者,当数据从 InfoSphere Streams 发送到 InfoSphere DataStage 时,InfoSphere Streams 作业将执行 RTAP 处理,然后将数据转发到 IBM InfoSphere DataStage 来补充、转换和存储细节,以便进行归档和传承。

图 1 中的图表是这种连接的一个示例。

图 1. Streams 和 DataStage 作业之间的运行时数据流

在下列两个方向上支持 Streams 作业和 DataStage 作业之间的设计时间集成。

从 Streams 到 DataStage。该过程涉及在 Streams 端生成端点元数据文件,将这些文件导入 Information Server 存储库,然后在 DataStage 作业内的 Streams Connector 配置中使用这些元数据。 从 DataStage 到 Streams。DataStage 作业元数据在 Streams 端通过 DataStage Integration Toolkit 导入,Streams 端创建可在大型 SPL 应用程序中使用的 SPL 代码。

将元数据从 Streams 导入 DataStage 的步骤如图 2 所示。

图 2. 从 Streams 到 DataStage 作业的设计时间集成步骤

运行 DataStage Integration Toolkit 的 generate-ds-endpoint-defs 命令来从一个或多个 Streams 应用程序描述语言(ADL)文件中收集端点详情,创建一个应用程序端点描述文件。 将端点描述文件从 Streams 机器复制到一个将运行 InfoSphere Metadata Asset Manager (IMAM) 的客户端机器。 运行 IMAM 并选择 InfoServer Streams 连接器。选择端点描述文件并将端点元数据导入 Information Server 存储库。 在 DataStage Designer 中设计 DataStage 作业。将一个 Streams 阶段添加到该作业后,配置该阶段并选择端点元数据。使用这些元数据来填充链接上的列并设置连接属性。

将元数据从 DataStage 导入 Streams 所需的步骤如图 3 所示。

图 3. DataStage 到 Streams 作业的设计时间集成步骤

Streams 端任务也可以在 Streams Studio 中完成。

时间: 2024-09-20 18:22:40

InfoSphere Streams 3.0连接Streams作业和DataStage作业的相关文章

InfoSphere Streams 2.0特性简介: 使用集合

您还将学习如何使用基础 C++++ Streams 运算符访问集合. 本文介绍目前可供 InfoSphere Streams 2.0 http://www.aliyun.com/zixun/aggregation/7155.html">开发人员使用的 3 种集合类型.集和映射复合类型不仅可用于 Streams 2.0 版,还为基础和复合类型的嵌套增添了灵活性.本文将同时使用 Streams 处理语言和 C++ 的一些示例展示新类型的强大功能. 前提条件 本文是为拥有 Streams 编程语

Optim Test Data Management Solution的InfoSphere DataStage作业验证步骤

简介:验证 DataStage 作业的需求 如今,企业正在实施以信息为中心的项目来转型其业务,并实 现成本节省.许多数据集成或信息集成应用程序或流程都包含 ETL 并作为其中一个组件. 通常,一个 ETL 流程(工作单元)旨在完成以下工作: 提取:从源系统提取数据并进行整理. 转换:将数据转换为可在下一步中使用的所需格式.通常,这将涉及到应用核心业务逻辑来将数据转换为 信息. 加载:通常,将数据加载到数据库表/仓库中,以供报告引擎用于从转换的数据中获取洞察. 一个数据集成应用程序中的作业会经历两

关于Android 6.0 连接WiFi的问题

问题描述 关于Android 6.0 连接WiFi的问题 30C 从网络上弄了一段关于6.0网络变化的资料: 十一.Wi-Fi和网络变化(Wi-Fi and Networking Changes) 此版本在Wi-Fi和网络API执行行为上有如下的变化 (1)现在,你的app只能修改你自己创建的WifiConfiguration对象的状态,而不再允许修改或删除由用户或其它app创建的WifiConfiguration对象 (2)之前,应用可以使用enableNetwork(),设置disableA

httpurlconnection-在Android 4.0连接HttpURLConnection失败

问题描述 在Android 4.0连接HttpURLConnection失败 我使用以下代码从网络上获取changelog. InputStream content = null; try { URL url = new URL("http://dreamhawk.blinkenshell.org/changelog.txt"); HttpURLConnection urlConnection = (HttpURLConnection) url.openConnection(); ur

在WINDOWS 10 64位环境,实现 ASP.NET 4.0 连接ORACLE 11g

问题描述 在WINDOWS 10 64位环境,实现 ASP.NET 4.0 连接ORACLE 11g 如题 环境 window 10 64位 需要让ASP.NET 连接到 ORACLE 数据库 解决方案 关于redhat 6.3 环境下 安装模拟pl/sql developer连接oracle 11g的方法Windows 64位 PLSQL Developer 连接Oracle 11g 64位Win7 64位 的VS2010 ASP.NET连接 Oracle 11g

C# sapnco3.0 连接sap出现问题

问题描述 情况是这样,写了一个程序,在使用SAPNCO3.0连接sap时报错,以下是情况说明:1.这个程序在客户公司时连接SAP正常.2.同一个程序在公司内部连接SAP失败(连接参数已修改为公司内部的账户,这个账户通过sap客户端能登陆的,已测试).3.只知道客户公司的SAP和我们公司内部的SAP版本不一致(不知道是不是这个原因)连接代码:RfcConfigParametersrfcPar=newRfcConfigParameters();rfcPar.Add(RfcConfigParamete

VM虚拟机下Ubuntu系统连接不上USB。提示usb2.0连接失败,驱动程序错误。怎么解决?

问题描述 VM虚拟机下Ubuntu系统连接不上USB.提示usb2.0连接失败,驱动程序错误.怎么解决? 解决方案 设置为硬盘挂载了吗?或者换个虚拟机版本吧 解决方案二: 应该是你vm设置有问题,或者你Ubuntu里设置的不对,我用的是vmware10,没有这个问题

mysql-enterprise5.0 连接MySQL数据库的配置文件怎么写,

问题描述 enterprise5.0 连接MySQL数据库的配置文件怎么写, 连接MySQL数据库时 出现 配置系统未能初始化 异常 是不是配置字符串配置问题:配置如下: <?xml version=""1.0"" encoding=""utf-8"" ?> providerName=""MySql.Data.MySqlClient"" />

iis6.0+.net4.0 连接远程sql server 2008,失败,急!!

问题描述 最近服务器iis6.0+.net4.0连接远程sqlserver2008,确定:数据库连接信息正确,且远程数据库可以远程连接,这是什么问题http://lcg.iszp.com/UserOperations/Stock_early.aspx?user_name=chenpeng&&user_pwd=69a65f0d237571f020b3e9f9367f3561 解决方案 解决方案二:UserOperations目录下有Stock_early.aspx页吗?(看看名字错没)IIS