Do You Know ETL ?

ETL是数据的提取、转换和加载;

ETL是指获取原始大数据流,然后对其进行解析,并产生可用输出数据集的过程。从数据源中提取(E)数据,然后经过各种聚合、函数、组合的转换(T),使其变为可用数据。最终数据会被加载(L)到对它进行具体分析的环境中。这就是ETL流程。

MapReduce是一种并行的编程架构,它不是数据库,而是对现有技术的补充。

MapReduce里内置了两个主要的处理过程:映射过程“map”以及归纳过程“reduce”,这就是MapReduce的名字来源。MapReduce会在一系列的工作节点上并发执行这些处理过程,会把数据分配到不同通用设备上运行处理。每一个MapReduce节点都会使用同样的代码对自己的管理的那部分数据进行处理。MapReduce里的节点之间不会发生信息的交互,甚至不知道彼此的存在,这是它和MPP系统的区别。

MapReduce环境的一个突出特点是处理各种非结构化文本的能力。MapReduce的核心理念是,让许多机器一起来共同承担海量数据带来的处理压力,当数据的处理逻辑可以在不同的数据子集上独立进行时,使用MapReduce进行并处理可以先出提升处理速度。

时间: 2024-09-21 06:42:17

Do You Know ETL ?的相关文章

ETL概述(原创)

ETL概述ETL,Extraction- Transformation-Loading的缩写,即数据抽取(Extract).转换(Transform).装载(Load)的过程,它是构建数 据仓库的重要环节.ETL是将业务系统的数据经过抽取.清洗转换之后加载到数据仓库的过程,目的是将企业中的分散.零乱.标准不统一的数据整合到一起,为 企业的决策提供分析依据.ETL是BI项目重要的一个环节.通过ETL,我们可以基于源系统中的数据来生成数据仓库.ETL为我们搭建了OLTP系统和 OLAP系统之间的桥梁

灵活有效的数据仓库解决方案,第3部分:设计并实现仓库ETL过程

简介 数据集成是数据仓库中的关键概念.ETL(数据的提取.转换和加载)过程的设计和实现是数据仓库解决方案中极其重要的一部分.ETL 过程用于从多个源提取业务数据,清理数据,然后集成这些数据,并将它们装入数据仓库数据库中,为数据分析做好准备. ETL 过程设计 尽管实际的 ETL 设计和实现在很大程度上取决于为数据仓库项目选择的 ETL 工具,但是高级的系统化 ETL 设计将有助于构建高效灵活的 ETL 过程. 在深入研究数据仓库 ETL 过程的设计之前,请记住 ETL 的经验法则:"ETL 过程

InfoSphere DataStage 运行时列扩展(RCP)在 ETL 中的应用

总体阐述 随着企业信息化建设的发展,大量企业都在架设基于自身所在行业的特点的商业智能系统,来指导商业运营.设计合理,运营高效的商业智能系统,在企业的经营决策中,越来越起着至关重要的作用. IBM InfoSphere Information Server 作为可扩展的企业信息体系结构基础,可以满足企业对于巨大信息量的需求,使企业在运营中更快的交付使用高质量的业务成果. IBM Infosphere DataStage 作为它的重要组成部分,支持数据结构从简单到复杂的大量数据进行收集,转换和分发,

数据抽取、清洗与转换 BI项目中ETL设计

ETL是将业务系统的数据经过抽取.清洗转换之后加载到数据仓库的过程,目的是将企业中的分散.零乱.标准不统一的数据整合到一起,为企业的决策提供分析的依据 ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败.ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据. ETL的设计分三部分:数据抽取.数据的清洗转换.数据的加载.在设计ETL的时候也是从这三部分出发.数据的抽取是从

基于C++ 语言库的GCC和Clang编译器基准测试报告(ETL)

从我使用 C++ 代码完成了不同编译器的基准测试到现在,已经有一段时间了.由于我最近发布了 ETL 项目的 1.1 版(一个具有表达式模板的优化矩阵/向量计算库),所以我决定使用它作为我的基准测试的基版本.它是一个带有大量模板的 C++ 14 库.我要编译完整的测试套件(124 个测试用例).这是直接在最新版本(1.1)的代码上完成的.我将在调试模式下编译一次,并在 release_debug(release + debug 符号和断言)下进行一次编译,并记录每个编译器的执行时间.该测试将使用支

关于etl工具kettle的使用

问题描述 关于etl工具kettle的使用 楼主因为工作原因需要使用kettle,目前遇到一个问题请各位大神帮帮我. 在进行简单的转换的时候,如何操作才能传递参数到表输入的条件中. 例如,_select* from tablename where column='XXXX' 怎么操作才能实现只需要传入参数,就能得到不同结果!谢谢大家了 解决方案 说明:阻塞数据是将前一步的数据挤压到一个临时文件.知道没有数据或步骤执行完成之后,才执行下一个步骤.......答案就在这里:ETL kettle 工具

ETL学习笔记之四:开源项目 Kettle

现在是一个Google的时代,而对于开发者,开源已成为最重要的参考书.对于某课题,不管你是深入研究还是初窥门径.估且google一把,勾一勾同行的成就,你必会获益良多.     说到ETL开源项目,Kettle当属翘首,因此,偶决定花点时间了解一下.     项目名称很有意思,水壶.按项目负责人Matt的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出.呵呵,外国人都很有联想力.     看了提供的文档,然后对发布程序的简单试用后,可以很清楚得看到Kettle的四大块:     Ch

基于kettle的数据ETL系统开发与设计

问题描述 基于kettle的数据ETL系统开发与设计 关于kettle的二次开发:功能包括,基于正则表达式的数据检查,实现数据转换,并且能自动入库.因为使用这个软件的特别少,可以学习的资料特别少.希望会用这个软件的大神能回答一下,CS学妹万分感谢O(∩_∩)O 解决方案 数据迁移ETL之kettle一

数据-关于etl工具kettle的流程设计

问题描述 关于etl工具kettle的流程设计 ETL工具kettle中如何设计流程使获取excel中多个sheet页数据到指定数据集中 解决方案 ETL工具设计关于ETL 工具 kettleETL工具kettle源码编译

atastage 9 1-Datastage 9.1 ETL工程出现中文乱码

问题描述 Datastage 9.1 ETL工程出现中文乱码 DataStage Administrator中NLS设置为GB1232, 在DataStage designer中从源数据中抽取表数据, 当表字段内容有中文时view data出现乱码 如下图所示: 我猜可能是字符集的问题,但是不知道在哪里设置,求高手指点