ETL工具 kettle

Kettle简介:Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。(引用百度百科)

1、Kettle的下载与安装(在本文中使用的kettle版本为6.1.0.1-196)

  kettle的最新下载地址:http://community.pentaho.com/projects/data-integration/

2、打开kettle。

  首先解压下载下来的压缩包如:pdi-ce-6.1.0.1-196.zip

  然后打开Spoon.bat,如图所示:

  

  打开后请耐心等待一会儿时间。

3、建立转换。

  在文件->新建装换。

  新建转换后在左边的主对象树中建立DB连接用以连接数据库。如图所示:

  

  建立数据库连接的过程与其他数据库管理软件连接数据库类似。

  注意:在数据库链接的过程中,可能会报某个数据库连接找不到的异常。那是因为你没有对应的数据库链接驱动,请下载对应驱动后,放入kettle的lib文件夹。

4、简单的数据表插入\更新

  (1)新建表插入

  在左边的面板中选择“核心对象”,在核心对象里面选择“输入->表输入”,用鼠标拖动到右边面板。如图所示:

 

 

 

  双击拖过来的表,可以编辑表输入。

  选择数据库连接和编辑sql语句,在这一步可以点击预览,查看自己是否连接正确。

 

  (2)通过插入\更新输出到表。

  在左边面板中选择核心对象、选择“输出->插入\更新”如图所示:

 

  编辑插入更新:

  首先:表输入连接插入更新。

    选中表输入,按住shift键,拖向插入更新。

  然后:双击插入更新,编辑它。

 

  到这里基本上,这个转换就要做完了,可以点击运行查看效果,看是否有误,这个要先保存了才能运行,可以随意保存到任何一个地方。

5、使用作业控制上面装换执行。

  使用作业可以定时或周期性的执行转换,新建一个作业。并从左边面板拖入start 和转换。

  

  双击start可以编辑,可以设置执行时间等等

  点开装换,可以设置需要执行的转换任务,比如可以执行上面我们做的转换,XXX.ktr

  最后点击运行即可。

 

  到这里,一个简单的通过作业调度的kettle就算做完了。

附录:测试数据表

 

 1 -- ----------------------------
 2 DROP TABLE IF EXISTS `student`;
 3 CREATE TABLE `student` (
 4   `userId` int(11) NOT NULL AUTO_INCREMENT,
 5   `userName` varchar(20) DEFAULT NULL,
 6   `userage` int(11) DEFAULT NULL,
 7   `timestamp` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
 8   PRIMARY KEY (`userId`)
 9 ) ENGINE=InnoDB AUTO_INCREMENT=6 DEFAULT CHARSET=utf8;
10
11 -- ----------------------------
12 -- Table structure for student2
13 -- ----------------------------
14 DROP TABLE IF EXISTS `student2`;
15 CREATE TABLE `student2` (
16   `userId` int(11) NOT NULL AUTO_INCREMENT,
17   `userName` varchar(20) DEFAULT NULL,
18   `userage` int(11) DEFAULT NULL,
19   `timestamp` timestamp NOT NULL DEFAULT '0000-00-00 00:00:00' ON UPDATE CURRENT_TIMESTAMP,
20   PRIMARY KEY (`userId`)
21 ) ENGINE=InnoDB AUTO_INCREMENT=6 DEFAULT CHARSET=utf8;

时间: 2024-12-29 16:52:02

ETL工具 kettle的相关文章

关于etl工具kettle的使用

问题描述 关于etl工具kettle的使用 楼主因为工作原因需要使用kettle,目前遇到一个问题请各位大神帮帮我. 在进行简单的转换的时候,如何操作才能传递参数到表输入的条件中. 例如,_select* from tablename where column='XXXX' 怎么操作才能实现只需要传入参数,就能得到不同结果!谢谢大家了 解决方案 说明:阻塞数据是将前一步的数据挤压到一个临时文件.知道没有数据或步骤执行完成之后,才执行下一个步骤.......答案就在这里:ETL kettle 工具

数据-关于etl工具kettle的流程设计

问题描述 关于etl工具kettle的流程设计 ETL工具kettle中如何设计流程使获取excel中多个sheet页数据到指定数据集中 解决方案 ETL工具设计关于ETL 工具 kettleETL工具kettle源码编译

关于etl工具kettle中双击 spoon.bat

问题描述 关于etl工具kettle中双击 spoon.bat '.java.exe -version 2>&1:C:Windowssystem32find/C"64-Bit不是内部程序 双击 spoon.bat,就出现这个窗口,一闪而过,然后就没动静了,到底是什么原因啊 坐等大神 我电脑是win7 64位 操作系统 java环境变量什么的都配好了 急

ETL工具之——kettle使用简介

今天我们打断一下ELK工具的使用讲解过程,来说说ETL工具kettle.首先我们要了解一下什么是ETL工具: ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract).转换(transform).加载(load)至目的端的过程.ETL一词较常用在数据仓库,但其对象并不限于数据仓库. 把数据从源取出,通过处理后放到标准的数据库中,你可以初略的这么去认为,这对于需要大量操作数据表格的人来说是有福了额(集团对账,片区分销体系汇总,无数的Ex

几款开源的ETL工具及ELT初探

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract).转换(transform).加载(load)至目的端的过程.ETL 是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去. 我们在下方列出了 7 款开源的 ETL 工具,并讨论了从 ETL 转向"无 ETL"的过程,因为 ELT 正迅速成为现代数据和云环境的终极过程. 注:原文包含 11 项

从ETL工具到企业云数据管理,在大数据风口的Informatica完成蜕变

数据已经成为整个社会的一个重要资产,越来越多的企业正在向数据驱动型企业转型.然而,数据的爆炸性增长,特别是非结构化数据的爆炸性增长使得这种转型面临巨大挑战.有研究显示,到2020年,平均每个互联网用户每天会产生1.5GB数据:一个智能工厂每天产生1PB数据--.未来数据量会越来越大,其中非结构化数据的增速要远远超过传统的结构化数据,使得企业从海量数据中获得洞察面临严峻的挑战. 10月31日,为了探求问题答案,Informatica 的300多名客户和合作伙伴来到2017 Informatica数

ETL 工具下载全集 包括 Informatica Datastage Cognos( 持续更新)

Datastage 8.0 BT种子下载:http://files.cnblogs.com/taven/Datastage_8.0.rar   Informatica PowerCenter 8.6.0 for Win 32Bit BT种子下载:http://files.cnblogs.com/taven/Informatica_PowerCenter_8.6.0_for_Win_32Bit.rar   Cognos BI 8.3 BT种子下载: http://files.cnblogs.com

大数据与机器学习:实践方法与行业案例.2.3 ETL

2.3 ETL ETL是Extract-Transform-Load的缩写,是数据的抽取.转换.加载过程,当需要将数据从一个环境转移到另一个环境时(例如从生产环境到分析环境),或者需要对数据进行进一步加工处理时(例如在分析环境中,在数据仓库基础上产出每日交易量指标),即需要借助ETL过程. ETL是构建数据闭环自循环过程的重要途径,几乎每个环节均可以通过ETL来完成.通过专门的ETL工具,定制满足业务要求的ETL作业,并结合自动调度工具,即可以实现数据的自动循环. 2.3.1 ETL工具 目前国

MongoDB 管理工具 Robomongo

[荐]开源ETL工具 Kettle Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定(数据- [荐]MySQL Workbench MySQL Workbench是一款专为MySQL设计的ER/数据库建模工具.它是着名的数据库设计工- [荐]数据库管理工具 Navicat Lite NavicatTM是一套快速.可靠并价格相宜的资料库管理工具,大可使用来简化资料库的管- [荐]MySQL管理工具 http://www.aliyun.com/zixun/agg