简介
IBM InfoSphere Information 服务器由一套可帮助企业从遍布多个数据源系统的信息中获取 业务价值的数据集成产品组成。它有助于以某种具有成本效益的方式从多个异构数据源中分析、清理和集成信 息。有了 IBM InfoSphere Information Server,企业能够以较低的成本和风险提高其运营效率。
IBM Information Server DataStage 是一个 ETL 产品,可帮助组织提取、转换和加载来自异构数据源的数据。 DataStage 可使用其高性能并行框架通过集成各种数据源来解决复杂的业务问题。
DataStage Java Integration Stage 和 DataStage JavaPack plug-ins
Java Integration Stage 是一个 DataStage Connector,可以使用它从 InfoSphere Data Stage 和 Quality Stage 并行任务中调用一个自定义 Java 应 用程序。Java Integration Stage 在 IBM InfoSphere Information Server 9.1 或更高版本中提供。Java Integration Stage 可用于以下拓扑结构中:作为一个源、作为一个目标、作为一个转换器、作为一个查找阶 段。
DataStage Java Pack 是两个插件阶段(Java Transformer 和 Java Client)的集合,可以通过 它来调用 DataStage 中的 Java 应用程序。Java Pack 在 DataStage 7.5.x 或更高版本中提供。
Java Transformer 阶段是一个主动阶段,用于调用一个 Java 应用程序,该应用程序可读取输入数据 并对其进行转换,然后将其写入 DataStage 作业中定义的输出链接。Java Client 阶段是一个被动阶段,可 作为一个源、一个目标以及一个查找阶段使用。作为目标阶段使用时,Java Client Stage 将使用数据。作为 一个查找阶段时,Java Client Stage 将执行查找功能。
您可以使用 Java Integration Stage (Unstructured Data Stage)或者任何 Java Pack Stages 来提取 Excel 数据。具体情况取决于部署的 Information Server 版本。如果您使用的是 Information Server 9.1,那么可以使用 Unstructured Data Stage 或 Java Integration Stage 来提取 Excel 数据。如果您使用的是 9.1 之前的版本(比如,8.7.x、 8.5.x、8.1.x、8.0.1 和 7.5.x),则必须使用 Java Pack Stages(Java Transformer Stage 或 Java Client Stage)从 Excel 文件中提取数据。本文将介绍如何使用 Java Integration Stage 和 Java Pack Client Stage 来提取 Excel 数据。
DataStage Java Integration Stage 和 Java Client Stage GUI 属性
Java Integration Stage GUI
Java Integration Stage 和 Java Client Stage 在 DataStage Designer Palette 的 Real Time 阶段提供。要使用 Java Integration Stage 和 Java Pack Stages,需要启动 DataStage Designer,创建一个新作业,扩展 Palette 中的 Real Time Stages 类别,然 后拖拽该阶段。
图 1. Palette 中的 Java Integration Stage 和 JavaPack Stages
Java Integration 阶段根据不同的使用环境(源、目标和查找)支持不同的属性。必须配置阶段属性来定义 Java 虚拟机配置以及从 Java Integration 阶段调用的 Java 类。输入链接和输出链接属性必须根据作业设计进行 配置。
图 2. 阶段属性