IBM利用Infosphere Datastage、Infosphere CDC、Infosphere Warehouse及Cognos构建数据分析(下)

通过 Infosphere CDC 实现实时、增量数据装载

InfoSphere Change Data Capture 是一个跨不同数据库的实时数据复制解决方案,它通过读取源数据库的日志获取变化的数据,并经过适当的转换将数据复制到数据目标中。

InfoSphere CDC 是通过读取数据库的日志来获取变化的数据,对源数据库造成的影响极低。同时,它可以跨不同的数据库实时地捕捉和交付变更的数据,包括主流的 DB2, Oracle, MS SQL Server, Sybase, Teradata 等数据库,目标还支持 Message Queue、InfoSphere Information Server、Web Services 等。我们可以通过管理控制台轻松配置、管理 InfoSphere CDC 数据复制任务。

InfoSphere CDC 数据复制主要支持以下几种方式:

Refresh

将数据源中的数据全部复制到目标中,它主要用于初始数据装载。

Net change

基于时间调度,将源数据库中变化的数据批量复制到目标中,任务运行完成,复制停止。

Continuous mirroring

持续监控源数据库,并将数据的变化实时复制到数据目标中。通常,实现实时数据">复制功能,我们大多采用该种数据复制方式。

如下图所示,InfoSphere CDC 关键组件主要包括:

图 11. InfoSphere CDC 体系结构

Datastore Replication Engine 是一个 InfoSphere CDC 进程,它发送或接收变更数据。在源和目标服务器上安装 InfoSphere CDC 时,分别在源和目标服务器上创建 Replication Engine 进程。 Access Server 是一个客户机工作站,其中有一组后台进程,它们把从其他客户机工作站上的 InfoSphere CDC
Management Console 接收的请求转发给适当的数据存储。这些进程还把信息返回给应用程序。可以创建数据存储和其他 InfoSphere CDC 用户,
然后为它们分配 Management Console 的 Access Manager 透视图。创建的数据存储和用户与 Access Server 相关联。 InfoSphere CDC Management Console 是一个交互式应用程序,可以使用它配置和监视复制。可以从客户机工作站管理不同服务器上的复制、指定复制参数以及启动刷新和
镜像操作。 数据存储代表 InfoSphere CDC 系统和可以用于复制的数据库。数据存储是源或目标服务器上的一个 InfoSphere CDC 进程。这个进程从 Access Server 的实例接收请求并与 Datastore Replication Engine 通信,从而启动和管理复制活动。这些进程是在 Management Console 的 Access Manager 透视图中定义的。

InfoSphere CDC 提供了图形化管理工具来配置、管理 InfoSphere CDC 数据复制任务,通常,设置 InfoSphere CDC 数据复制任务主要包括以下几个步骤:

为源数据库服务器创建 InfoSphere CDC 的实例。 为目标数据库服务器创建 InfoSphere CDC 的实例。 创建数据存储并把数据存储分配给用户: 登录 Management Console 并连接 Access Server。 为源和目标数据库创建数据存储。 把数据存储分配给用户。 设置用于复制的订阅: 在用于 CDC 复制的源和目标数据存储中创建表。 创建一个
新的订阅。 映射用于复制的表并选择复制方法。 对订阅启动复制。

CDC Transaction Stage

从 Infosphere Datastage 8.5 开始,提供了 CDC Transaction Stage, 可以在 Datastage 作业中利用 CDC 提供的复制能力来实现基于事务的、实时的数据复制功能,可以用来实现增量、实时数据 ETL 功能。CDC Transaction Stage,在 Infosphere Datastage 8.5 中以补丁的方式提供 :CDC Transaction Stage patch (APAR JR37451),在 Infosphere Datastage 8.7 的产品中本身已经包含。

图 12. CDC Transaction Stage 系统架构

如上图所示,CDC Transaction Stage 和 InfoSphere CDC 互相配合,在 datastage 作业中来实现实时、增量异构数据库 ETL 功能。在 InfoSphere CDC 产品中,我们通过定义复制目标为 Datastage Server 来同 Datastage 中的 CDC Transaction Stage 相关联,在 datastage 中,CDC Transaction Stage 用于同 InfoSphere CDC 相互通信获取实时、增量数据,并在 Datastage 中做相应的数据转换,通过 datastage 提供的 connector 将数据落实到目标数据库中。

CDC Transaction Stage 通过 CDC 预订及 bookmark 作为同步机制来保证在系统出现故障时数据不会丢失。CDC Transaction Stage 数据同步是基于 CDC 预订级别,Bookmark 信息在 CDC 数据源服务器上自动生成,并以字符串形式传输给 CDC Transaction Stage,Bookmark 信息保存在 DataStage 目标数据库中,它主要包含了事务打开的位置、事务落实的位置、目标数据落实的位置等信息,不同的预订,需要定义不同的表来保存 bookmark 信息。在 CDC Transaction Stage 中,需要定义 ODBC 数据源来访问目标数据库中的 bookmark 信息。当预定重新启动后,CDC transaction stage 从目标数据库中读取 bookmark 信息,并将其传输到 CDC 源来定义重新启动的位置。

时间: 2025-01-21 11:53:43

IBM利用Infosphere Datastage、Infosphere CDC、Infosphere Warehouse及Cognos构建数据分析(下)的相关文章

基于IBM InfoSphere DataStage和IBM InfoSphere Change Data Capture集成的解决方案

传统上,通过在非操作时间段内使用一个 ETL 流程批量处理,每年.每月或每周对http://www.aliyun.com/zixun/aggregation/8302.html">数据仓库更新一次.在今天的业务环境中,一线业务用户需要根据每小时.每分钟甚至每秒更新的信息制定决策.这些实时数据需求使得批处理窗口萎缩,并需要一个高效的解决方案来解决这个问题. IBM InfoSphere DataStage 和 IBM InfoSphere Change Data Capture 的集成是通过

利用InfoSphere DataStage开发高效的数据处理作业

本文旨在帮助读者学习和熟练使用这一技术,开发高效的http://www.aliyun.com/zixun/aggregation/14345.html">数据处理作业,保障商业智能系统的成功. 随着企业信息化建设的发展,大量企业都在架设基于自身所在行业的特点的商业智能系统,来指导商业运营.设计合理,运营高效的商业智能系统,在企业的经营决策中,越来越起着至关重要的作用. IBM InfoSphere Information Server 作为可扩展的企业信息体系结构基础,可以满足企业对于巨大

InfoSphere DataStage 运行时列扩展(RCP)在 ETL 中的应用

总体阐述 随着企业信息化建设的发展,大量企业都在架设基于自身所在行业的特点的商业智能系统,来指导商业运营.设计合理,运营高效的商业智能系统,在企业的经营决策中,越来越起着至关重要的作用. IBM InfoSphere Information Server 作为可扩展的企业信息体系结构基础,可以满足企业对于巨大信息量的需求,使企业在运营中更快的交付使用高质量的业务成果. IBM Infosphere DataStage 作为它的重要组成部分,支持数据结构从简单到复杂的大量数据进行收集,转换和分发,

Infosphere Datastage的扩展方法应用实践

我们知道, Infosphere Datastage 是一个功能强大的数据抽取.转换.装载工具,广泛用于用户信息整合项目之中.它不仅提供了丰富的数据接口,可以连接种类广泛的大型机.数据库.ERP/CRM 等企业应用及外部信息资源,它还提供了几十个数据转换 stage 及上百个数据转换函数,可以满足我们数据转换的需求,其中,比较常用的 Stage 主要包括: 用于数据源及目标的 stage:各种数据库的 connector.sequential file.data set 用于数据合并的 stag

Infosphere Datastage常见的几种扩展方法及区别(上)

本文以示例介绍的方式介绍了 Infosphere Datastage 常见的几种扩展方法及区别,各种扩展方式的使用场景及具体配置方法,希望能够使读者对 Infosphere Datastage 各种扩展方式有一个比较全面的了解. 我们知道, Infosphere Datastage 是一个功能强大的数据抽取.转换.装载工具,广泛用于用户信息整合项目之中.它不仅提供了丰富的数据接口,可以连接种类广泛的大型机.数据库.ERP/CRM 等企业应用及外部信息资源,它还提供了几十个数据转换 stage 及

基于IBM Rational Build Forge实现敏捷开发过程中的持续构建

在敏捷开发过程中,软件构建周期以及自动化程度直接影响开发的速度和质量.本文结合具体的软件开发项目,描述如何利用 IBM Rational Build Forge 在敏捷开发过程中实现完全自动化的软件构建,产品安装以及单元测试,进行每天持续快速构建,提高开发团队的效率,改进产品和开发质量. 概述 敏捷开发(Agile development)是一种以人为核心.迭代.循序渐进的开发方法,开发周期一般是两星期到四星期.敏捷开发的一大原则是尽早的.持续的交付有价值的软件来使客户满意,交付的间隔时间越短越

Optim Test Data Management Solution的InfoSphere DataStage作业验证步骤

简介:验证 DataStage 作业的需求 如今,企业正在实施以信息为中心的项目来转型其业务,并实 现成本节省.许多数据集成或信息集成应用程序或流程都包含 ETL 并作为其中一个组件. 通常,一个 ETL 流程(工作单元)旨在完成以下工作: 提取:从源系统提取数据并进行整理. 转换:将数据转换为可在下一步中使用的所需格式.通常,这将涉及到应用核心业务逻辑来将数据转换为 信息. 加载:通常,将数据加载到数据库表/仓库中,以供报告引擎用于从转换的数据中获取洞察. 一个数据集成应用程序中的作业会经历两

InfoSphere Streams使用控制端口特性来同步构建过程

该工具中的建模操作符使用传入的时序数据来构建内部的预测或跟踪模型.在真实场景中,用于模型构建的传入数据可能成为干扰数据,应该从模型构建流程中丢弃 这些数据.此外,在清理传入数据后,模型可能必须再次培训 (retrain).本文为这个问题提供了一个解决方案,介绍如何使用控制端口特性来同步和调整模型构建过程和操作符函数,确保传入数据的质量. InfoSphere Streams Time http://www.aliyun.com/zixun/aggregation/16960.html">S

IBM利用“沃森”超级电脑帮助员工对抗癌症

北京时间10月12日消息,据外媒报道,对癌症患者来说,找到最佳的治疗方案非常关键,而IBM希望帮助旗下员工更容易地找到这些方案. 从明年1月起,IBM的美国区员工将能够利用"沃森"(Watson)超级电脑来帮助找到最有效的肿瘤药物和临川试验,来治疗他们特定的癌症. "对每一位确诊患者,或者所爱的人罹患该疾病的人来说,癌症的影响都是压倒性的,"IBM的"沃森健康"(Watson Health)部门首席健康官Kyu Rhee说."随着该技术