kettle 资源库

  • 元数据的存储方式

    • 资源库
      • 包括文件资源库、数据库资源库
      • 4.0以后资源库类型可以插件拓展
    • XML文件
  • 资源库类型
    • 数据库资源库
      • 把kettle的元数据串行化到数据库中
      • 在spoon里创建和升级数据库资源库
    • 文件资源库
      • 在文件的基础上的封装,实现了org.pentaho.di.repository.Repository接口(如果自己实现资源库也是实现这个接口),4.0以后增加的资源库类型
    • 不使用资源库
      • 直接保存为ktr、kjb文件

如何选择资源库

- 数据库资源库的缺点
        - 不能存储转换或作业的多个版本
        - 严重依赖于数据库的锁机制来防止工作丢失
        - 没有考虑到团队开发,开发人员不能锁住某个作业自己开发

- 文件资源库的缺点
     - 对象之间的关联关系难以处理,所以删除、重命名等操作会比较麻烦
     - 没有版本历史
     - 难以进行团队开发

- 不使用资源库:使用SVN进行版本控制(推荐)

资源库操作

新建资源库








时间: 2024-11-05 12:06:53

kettle 资源库的相关文章

kettle使用admin密码连接不上资源库

问题描述 kettle使用admin密码连接不上资源库 kettle创建mysql的资源库,但是使用admin/admin登陆不上 解决方案 kettle资源库的数据库建表语句有错误

大数据与机器学习:实践方法与行业案例.2.3 ETL

2.3 ETL ETL是Extract-Transform-Load的缩写,是数据的抽取.转换.加载过程,当需要将数据从一个环境转移到另一个环境时(例如从生产环境到分析环境),或者需要对数据进行进一步加工处理时(例如在分析环境中,在数据仓库基础上产出每日交易量指标),即需要借助ETL过程. ETL是构建数据闭环自循环过程的重要途径,几乎每个环节均可以通过ETL来完成.通过专门的ETL工具,定制满足业务要求的ETL作业,并结合自动调度工具,即可以实现数据的自动循环. 2.3.1 ETL工具 目前国

kettle/pentaho-kettle数据资源库问题

问题描述 kettle数据资源库问题 在登录数据库资源库时出现下面的错误,不知道该怎么解决. 解决方案 Kettle 的资源库 解决方案二: 不知道 静静等待别人的答案 解决方案三: 解决了,是其中的sql代码问题

Kettle探索资源库报错

问题描述 Kettle探索资源库报错 java.lang.RuntimeException: java.lang.RuntimeException: org.pentaho.di.core.exception.KettleException: Unable to get list of repository objects An error occurred executing SQL: SELECT NAME, MODIFIED_USER, MODIFIED_DATE, DESCRIPTION

用Kettle的一套流程完成对整个数据库迁移

需求: 1.你是否遇到了需要将mysql数据库中的所有表与数据迁移到Oracle. 2.你是否还在使用kettle重复的画着:表输入-表输出.创建表,而烦恼.  下面为你实现了一套通用的数据库迁移流程.  技术引导: 实现之初,在kettle提供的例子中找到了一个类似的(samples\jobs\process all tables). 通过相关改造,终于达到目标.  实现过程解剖: 整套流程分为:2个job,4个trans. 使用到的Trans插件:表输入.字段选择.复制记录到结果.从结果获取

数据对接—kettle使用之一

需求:       你有没有遇到过不同数据库之间数据对接的需求,比如:mysql数据库里的数据要保存到oracle数据库里,或者是excel里的数据要保存到数据库里,或者是数据库的数据要定时的保存到文件中等等数据对接的问题.下面就开始介绍一款软件来帮助我们实现各种数据对接的问题,这将是一个系列的博客,这篇只是个开始,后面将陆续的通过实例来讲解软件如何使用,当然不可能面面俱到,很多功能还需要我们不断的挖掘和完善. 工具介绍:       说了这么多这个软件到底是什么呢?就是一个我们中文意思是水壶的

Kettle定时执行

1,Kettle跨平台使用.  例如:在AIX下(AIX是IBM商用UNIX操作系统,此处在LINUX/UNIX同样适用),运行Kettle的相关步骤如下:  1)进入到Kettle部署的路径  2)执行 chmod *.sh,将所有shell文件添加可执行权限  3)在Kettle路径下,如果要执行transformation,就运行./pan.sh -file=?.ktr -debug=debug -log=log.log  其中.-file说明你要运行的transformation文件所在

kettle用命令行执行ktr和kjb

Spoon 是一个图形用户界面,它允许你运行转换或者任务,其中转换是用Pan 工具来运行,任务是用Kitchen 来运行.Pan 是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取.操作和写入数据.Kitchen 是一个可以运行利用XML 或数据资源库描述 的任务.通常任务是在规定的时间间隔内用批处理的模式自动运 一.执行转换transformation(ktr) cd d:\etl\bin pan /file d:\etltest\etltestrans.ktr 二.执行任务jo

数据仓库-kettle Job日志问题--trans日志和job日志的关联

问题描述 kettle Job日志问题--trans日志和job日志的关联 各位大虾: 我们公司用KETTle工具创建JOB的方式完成数据同步,一个job中很可能有多个转换.现在需要对job的运行做监控:要求数据库中实现运行日志表(我选了资源库,是不是还要自己建立日志表,日志表的表结构怎么定义??),日志分两级-- Job 日志表记录每个转换的名称,开始运行时间,运行状态,报错信息等.每个转换还要有自己的日志来详细记录转换本身的运行状态. 解决方案 注意最下方中间的sql 要点击,生成语句后 点