数据抽取、清洗与转换 BI项目中ETL设计

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析的依据

ETL是BI项目最重要的一个环节，通常情况下ETL会花掉整个项目的1/3的时间，ETL设计的好坏直接关接到BI项目的成败。ETL也是一个长期的过程，只有不断的发现问题并解决问题，才能使ETL运行效率更高，为项目后期开发提供准确的数据。

ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候也是从这三部分出发。数据的抽取是从各个不同的数据源抽取到ODS中(这个过程也可以做一些数据的清洗和转换)，在抽取的过程中需要挑选不同的抽取方法，尽可能的提高ETL的运行效率。ETL三个部分中，花费时间最长的是T(清洗、转换)的部分，一般情况下这部分工作量是整个ETL的2/3。数据的加载一般在数据清洗完了之后直接写入DW中去。

ETL的实现有多种方法，常用的有三种，第一种是借助ETL工具如Oracle的OWB、SQL server 2000的DTS、SQL Server2005的SSIS服务、informatic等实现，第二种是SQL方式实现，第三种是ETL工具和SQL相结合。前两种方法各有优缺点，借助工具可以快速的建立起ETL工程，屏蔽复杂的编码任务，提高速度，降低难度，但是欠缺灵活性。SQL的方法优点是灵活，提高ETL运行效率，但是编码复杂，对技术要求比较高。第三种是综合了前面二种的优点，极大的提高ETL的开发速度和效率。

数据的抽取

数据的抽取需要在调研阶段做大量工作，首先要搞清楚以下几个问题：数据是从几个业务系统中来?各个业务系统的数据库服务器运行什么DBMS?是否存在手工数据，手工数据量有多大?是否存在非结构化的数据?等等类似问题，当收集完这些信息之后才可以进行数据抽取的设计。

时间： 2024-09-14 21:19:03

数据抽取、清洗与转换 BI项目中ETL设计

数据抽取、清洗与转换 BI项目中ETL设计的相关文章

《BI项目笔记》增量ETL数据抽取的策略及方法

项目开发中如何设计数据字典？

ef-在项目中使用两个EF上下文

ODS项目中的数据集成

数据质量：BI项目成功的基石

机器学习项目中的数据预处理与数据整理之比较

java-如何在j2EE项目中采用Data Service 来管理数据：支持数据的统一管理

《BI项目笔记》多维数据集中度量值设计时的聚合函数

《数据科学：R语言实现》——第2章数据抽取、转换和加载 2.1 引言