浅析 Transformer Stage 在 DataStage 作业中的用法及功能实现

产品背景介绍

IBM InfoSphere DataStage 是业界主流的 ETL(Extract, Transform, Load) 工具,它使用了 Client-Server 架构,在服务器端存储所有的项目和元数据,并支持在多重数据结构中对大量数据进行收集、整合和转换。客户端 DataStage Designer 为整个 ETL 过程提供了一个图形化的开发环境,用户在 Designer 中对 DataStage Job 的进行设计和开发。DataStage 中提供了多个过程处理 Stage 来满足 ETL 的需要,然而 Transformer Stage 在这些 Stage 中用途和使用方法最为广泛,本文将对 Transformer Stage 在 ETL 过程中的用法及实现的功能做出详尽描述。本文中涉及到 IBM InfoSphere DataStage 为 IBM Information Server 8.0.1 版本。

Transformer Stage 组件介绍

Transformer Stage 在 DataStage 中是一个重要的,功能强大的组件,在 ETL 过程中,它承担“T”( 即数据的转化 ) 的责任。在 Transformer Stage 中可以指定数据的来源和目的地,匹配对应输入字段和输出字段,并指定转换规则和约束条件。

图 1. Transformer Stage 运用在 DataStage job 中的运用

图 2. Transformer Stage 列映射与字段表达式

Transformer Stage 在 DataStage job 中可实现的功能及案例分析

1. 字段转换

字段转换是 Transformer Stage 中最常见的一个功能,它能够将源数据根据一定的规格转换成为目标数据。下面将以 ETL 过程中比较常见的 Date 与 Timestamp 相互转换为例,说明字段转换的实现方式。

1.1 源数据类型为 Timestamp,目标类型为 Date

清单 1. 时间转换函数

TimestampToDate(in.ADD_DATE)

图 3. 字段转换表达式

图 4. 字段转换前后对比

查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/Programming/extra/

时间: 2024-10-03 17:29:12

浅析 Transformer Stage 在 DataStage 作业中的用法及功能实现的相关文章

详细了解Transformer Stage组件在DataStage job开发中的作用

IBM InfoSphere DataStage 是业界主流的 ETL(Extract, Transform, Load) 工具,它使用了 Client-Server 架构,在服务器端存储所有的项目和元数据,并支持在多重数据结构中对大量数据进行收集.整合和转换.客户端 DataStage Designer 为整个 ETL 过程提供了一个图形化的开发环境,用户在 Designer 中对 DataStage Job 的进行设计和开发.DataStage 中提供了多个过程处理 Stage 来满足 ET

Optim Test Data Management Solution的InfoSphere DataStage作业验证步骤

简介:验证 DataStage 作业的需求 如今,企业正在实施以信息为中心的项目来转型其业务,并实 现成本节省.许多数据集成或信息集成应用程序或流程都包含 ETL 并作为其中一个组件. 通常,一个 ETL 流程(工作单元)旨在完成以下工作: 提取:从源系统提取数据并进行整理. 转换:将数据转换为可在下一步中使用的所需格式.通常,这将涉及到应用核心业务逻辑来将数据转换为 信息. 加载:通常,将数据加载到数据库表/仓库中,以供报告引擎用于从转换的数据中获取洞察. 一个数据集成应用程序中的作业会经历两

InfoSphere Streams 3.0连接Streams作业和DataStage作业

作为 InfoSphere Streams 3.0 和 InfoSphere Information Server 9.1 版本的一部分,这两款产品都进行了改进,让 Streams 应用程序和 DataStage 作业之间的集成变得更容易. 本文提供了解释如何在 Streams 应用程序和 DataStage 作业之间创建端到端集成场景的技术细节.阅读本文后您将熟悉以下概念: 从 Streams 应用程序将数据发送到 DataStage 作业,包括如何: 创建或修改一个现有 Streams SP

new-这是一个有关于C++的问题,作业中遇到的问题,求助!

问题描述 这是一个有关于C++的问题,作业中遇到的问题,求助! read one string from the file called ""infile.txt"" into your string class using your read member function()The class will store the string in dynamic memory that is pointed to with the pointer. When you

浅析jQuery 遍历函数,javascript中的each遍历_jquery

jQuery 遍历函数 jQuery 遍历函数包括了用于筛选.查找和串联元素的方法. 函数 描述 .add() 将元素添加到匹配元素的集合中. .andSelf() 把堆栈中之前的元素集添加到当前集合中. .children() 获得匹配元素集合中每个元素的所有子元素. .closest() 从元素本身开始,逐级向上级元素匹配,并返回最先匹配的祖先元素. .contents() 获得匹配元素集合中每个元素的子元素,包括文本和注释节点. .each() 对 jQuery 对象进行迭代,为每个匹配元

fminunc-Ng机器学习课程Part 2 Logistic Regression作业中的问题,急!!!

问题描述 Ng机器学习课程Part 2 Logistic Regression作业中的问题,急!!! 为什么调用fminunc()求解最佳theta出现这个问题??? 解决方案 http://blog.csdn.net/yangliuy/article/details/18455525

浅析私有存储云在企业中优势与安全性

文章讲的是浅析私有存储云在企业中优势与安全性,随着数据不断以指数形式增加,人们已经不可能降低数据的存储量,因此,多数企业为了提高系统效率,对已有基础设施进行日常维护和升级,以及对现有的基础架构引用动态架构技术,以提高可伸缩性.这包括将服务器和存储技术混合.非破坏性地添加和移除存储设备以及随需应变;在不宕机的情况下转移数据的能力;提供多层次业务服务的能力,以在整个企业内部满足可用性或者合规性的要求. 实现这些目标需要一个灵活.易扩展.易管理的存储技术.对于很多企业来说,私有存储云就是解决发,通过对

《深入理解Hadoop(原书第2版)》——3.5Hadoop作业中的第三方函数库

3.5Hadoop作业中的第三方函数库 到目前为止,在Mapper和Reducer类中只使用了标准Java函数库和Hadoop函数库.这些标准函数库包括了Hadoop发行版中的类库和标准Java类库(比如String.class). 可是,仅仅使用这些标准函数库不能够开发复杂的Hadoop作业程序,有时我们需要第三方库的支持.如前所述,Mapper和Reducer类中使用的这些库需要被发送并配置到集群中运行Mapper和Reducer实例的所有节点. 首先,你要编写一个跟介绍过的代码不同的使用第

Yarn源码分析之MapReduce作业中任务Task调度整体流程(一)

        v2版本的MapReduce作业中,作业JOB_SETUP_COMPLETED事件的发生,即作业SETUP阶段完成事件,会触发作业由SETUP状态转换到RUNNING状态,而作业状态转换中涉及作业信息的处理,是由SetupCompletedTransition来完成的,它主要做了四件事:         1.通过设置作业Job的成员变量setupProgress为1,标记作业setup已完成:         2.调度作业Job的Map Task:         3.调度作业的