DTS开发记录(序)

    (原文发表于2006-06-27 ,修正于2006-07-03)
    目前手头上正在负责一个DTS(这里的DTS是Data Transfer System的缩写)系统的开发,我打算写一系列的文章来记录这个开发的全过程,这个记录可以说是实时的--每当遇到一个重要问题或解决一个重要问题,我将记录之。侯捷老师说,“发表是最好的记忆”,这一系列的文章除了权作笔记外,也希望能对后来者有所参考。
    
    在开发任何系统之前,我们都需要弄清楚,这个系统是用来干什么的?主要职责是什么?这些需要通过需求分析得到。DTS是一个工具软件,几乎不涉及业务,所以其功能目标还是比较单纯的。我们都知道,DTS用于在两个数据库之间、或者文件与文件之间、或者数据库与文件之间导入导出数据,参与数据传递的两个表(源表与目标表)的结构可能是完全不同的,但是它们之间的列与列可能存在映射关系(有的列映射可能很复杂,比如会涉及类型转换、列合并、列分裂、转换表达式等),DTS可以基于建立好的映射关系,将数据从源表向目标表传递。我大致总结了一下,DTS系统的主要功能包括:

(1)独立于数据库类型和文件类型,或者说完全支持异构数据库、异构文件之间的传递。(如果有新的数据库类型或文件类型,则只需要添加对应的适配器插件即可)
(2)提供可视化的工具,能建立(或修改)源表结构与目的表结构之间的匹配映射关系(映射关系可以保存、加载)
(3)验证表结构映射关系的完整性、正确性
(4)基于正确完整的结构映射关系,可以实现数据从源表到目的表的导出和增量导出(暂停/继续功能、日志记录功能)
(5)支持多种数据加工方式,如列合并、列分裂等。
(6)支持分支条件,以使在数据转换迁移时可以依据条件动态改变转换流程。
(7)当数据源为数据库时,如果将源表替换为临时视图,仍能实现上述功能。(使用临时视图是为了解决多个源表对应一个目的表的问题)
(8)当不允许创建视图时,仍可以进行多表联合查询数据导出。
(9)记录导出失败的数据,并能依据这些记录,对失败的数据进行重新导出。
(10)定时运行数据导出任务。

    就目前我所了解的,这个系统的难点在于以下几个方面:
(1)独立于数据库类型是一个挑战!不同类型的数据库虽然都支持标准的SQL语句,但是它们之间的差异还是巨大的,比如,每种类型的数据库都有自己的数据类型;每种类型的数据库都有不相同的扩展;对于同一个任务(比如分页),针对不同类型的数据库都有不同的实现方式,等等。
(2)增量导出是另一个难点。如果已经导出过的数据发生的变化(更新、删除),由于我们不能修改数据源添加触发器,所以我们的系统接收不到这些事件,如何同步这些已经导出过的数据需要一种策略。
(3)列合并的合并表达式的验证都不简单。而且还要看你对表达式的支持需要到达什么样的级别,比如加减乘除、指数、对数、笛卡儿运算等等。
(4)对不满足转换规则的源数据项的处理。也许不同的任务对这样的源数据项的处理要求是不一样的,系统必须支持用户对处理方式的选择。

    还有很多难点可能还没有遇到,也可能还有很多需求没有整理进来,这些会在构建系统的过程中逐步挖掘或发现,到时我会将它们列举在这里。

    《DTS开发记录》目录:

1.DTS开发记录(1)--系统总体结构 

2.DTS开发记录(2)-- 数据管道及插件 

3.DTS开发记录(3)-- 连接与连接对 

4.DTS开发记录(4)-- 映射列 

5.DTS开发记录(5)-- 挑战增量导出 

6.DTS开发记录(6)-- 数据映射 

7.DTS开发记录(7)-- 灵活的引擎 IAgileEngine
   
8.DTS开发记录(8)-- 主键的影响

9.DTS开发记录(9)-- 数据迁移任务 DataTask

10.DTS开发记录(10)-- 可视化的流程编辑

时间: 2024-09-24 06:28:48

DTS开发记录(序)的相关文章

DTS开发记录(5)-- 挑战增量导出

    增量导出恐怕是DTS系统中最艰难的部分了,我们曾考虑过很多方案,最后都因为需要表大纲做一定的假设而不具备通用性而放弃.有很多效率较高的方案,由于为了追求通用性而无法实现,因为现实的情况比我们理想的要复杂许多.    下面将列举我们曾考虑的几种主要方案,这些方案乍一看似乎都很有希望,可通过层层分析,最后都因为复杂的现实情况而胎死腹中. 1.触发器    这是一个非常简单直接的解决方案,我们只需要将DTS引擎驻留在比如windows服务中,该引擎通过数据库的触发器事件获取源表数据更新的所有情

DTS开发记录(7)-- 灵活的引擎 IAgileEngine

    数据引擎是数据传递系统(DTS)的核心,正如游戏引擎是PC游戏的核心一样.    IAgileEngine从目前手上的DTS系统中不断的重构完善出来,虽然IAgileEngine已经不局限于在本DTS系统中使用,但是,我还是打算在这个系列文章中来介绍它.     正如,任何事物都有最简单的雏形,IAgileEngine也是一样.DTS系统最初的引擎也是一个非常简单的引擎,随着功能不断的加入.完善,我们不断地对其重构,使其满足新的需求.终于,它慢慢地成长,这种成长的结果也是我最初没有意料到

DTS开发记录(6)-- 数据映射

    在DTS开发记录(4)-- 映射列一文中,我们详细的讨论了参与映射的源列和目标列,在拥有了映射列的基本概念的基础上,我们可以讨论数据映射DataMapping了.    数据映射主要由一组映射项(MappingItem)组成,它包含了源数据大纲到目标数据大纲的详细的完整的映射关系.    首先要注意一点,数据映射与数据大纲绑定,但是并不与任何特定的数据库表绑定.这样,DataMapping可以运用在不同的数据库表上,只要对应的数据库表结构兼容DataMapping要求的数据大纲即可.  

DTS开发记录(10)-- 可视化的流程编辑

   在将数据从数据源导出到数据目标的过程中,我们通常需要对数据进行一些检查.验证.加工.转换等操作,而这个加工转换的流程可能是非常复杂的,DTS通过可视化的拖拽的方式对数据加工转换流程进行自定义编辑.   下面的一个例子,是将某个市的学生记录表中的数据导出到省的学生记录表中,市数据库使用的是SqlServer,省数据库采用的是Oracle.    左边的工具栏中是不同类型的Filter,它们用于对数据进行某些处理,这些Filter分为五类:(1)数据载体:用于存储数据的容器,如数据库.文件.消

DTS开发记录(4)-- 映射列

    在DTS开发记录(1)--系统总体结构 一文中,我们介绍到映射列:"参与了数据映射的源列或目标列.注意,并不是所有的列都会参与映射,这是常见的情况." 1.映射列分为:源映射列和目标映射列.     public interface IMappingColumn    {        string ColumnName { get;set;}    }     public interface IDestMappingColumn : IMappingColumn    { 

DTS开发记录(8)-- 主键的影响

    对于数据源向同一数据目标导出(我们称之为"数据汇集")和增量导出来说,对主键的处理也是一个大的挑战.    我先定义一下在本DTS系统中主键(PrimaryKey)的含义:PrimaryKey 表示主键或联合主键,PrimaryKey并不是针对某个数据库表的,而是针对某个特定的DataMapping而言的,它用于在数据迁移过程中来唯一确定数据源或数据目标中每条记录.    所以,本DTS系统中的PrimaryKey很多时候就是数据库表的主键,有些时候则可能不是,只要它能满足&q

DTS开发记录(1)--系统总体结构

    (原文发表于2006-06-28 ,修正于2006-07-03)     在DTS开发记录(序)一文中,我们已经明白了当前这个Data Transfer System的主要目标和存在的难点与挑战.在接下来的一系列的文章中,我将记录我们开发中是如何解决这些难点.如何应付这些挑战的,有的技巧或方案可能还并不成熟,所以如果你有任何想法,请留言告诉我.     本文就先从系统结构讲起.     通过我们的分析归纳,确定了该DTS系统中存在三个核心的概念,这三个核心概念建立在如下基本概念之上:(1

DTS开发记录(9)-- 数据迁移任务 DataTask

    在DTS开发记录(1)--系统总体结构 一文中,我们已经看到,一次数据传递任务基于一个连接对和一个数据映射进行.但是之前,我们并没有提到"数据迁移任务"这个元素.随着设计的演化,我们发现一个数据任务已经不再仅仅是一个连接对加上一个数据映射了.现在,我们完全有必要把"数据迁移任务"这个概念抽象的表示出来,称之为DataTask.     有了DataTask,我们的数据引擎就可以修改为基于一个指定的DataTask执行.DataTask不仅封装了在其上执行数据

DTS开发记录(2)-- 数据管道及插件

    通过前面两篇文章(已于2006-07-03修正)的介绍,我们已经大致明白了系统的目标的总体结构,从这篇文章开始,我们将逐渐深入到系统内部.     本文讲述数据管道,数据管道是用于在数据源/数据目标与DataTable之间进行数据传递的组件,它是与数据库类型和文件类型相关的,数据从数据源经过数据管道后,就变成与数据源类型无关的数据了,这样映射编辑和数据引擎便能对它们进行一致的处理.    数据管道接口定义的类图如下:     数据管道接口IDataPipe从另外两个接口继承:数据导入器(