数据对接—kettle使用之十二

这一篇我们介绍转换插件的使用,去除重复记录和Unique rows (HashSet)。

去除重复记录控件

该步骤从流中移除重复的记录,根据指定的字段进行排除重复记录,还可以统计出重复的数量,下面是控件截图:


1、增加计数器到输出:如果你想知道多少重复行被去掉,就选择此选项。

2、重定向重复记录

注意事项:

1、使用前需要排序

Unique rows (HashSet)控件

该步骤也可以从流中移除重复的记录,下面是控件截图:

总结:

两个控件都是去重的控件,较大的区别是第一个控件去重前需要排序,第二个控件不需要排序就可以直接完成去重任务,需要哪一个控件自己选择吧。

时间: 2024-09-27 15:51:21

数据对接—kettle使用之十二的相关文章

数据对接—kettle使用之十

上一篇介绍了字符串处理插件替换字段,并通过实例介绍插件的简单使用.这一篇我们介绍另外五个字符串处理插件的使用,它们分别是:Setfield value替换值控件.Setfield value to a constant替换为固定值,如果是日期类型还可以配置日期格式.Splitfield to rows(分隔控件).String operations(字符串操作控件).Strings cut(剪切控件). 一.Set field value替换值控件(将id值替换为code值)  二.Set fi

数据对接—kettle使用之十六

这一篇我们介绍Clone row.Delay row和Mail插件. Clone row控件 克隆插件,Nr clones值是复制的行数,0表示不复制. Delay row 延迟执行行,每行执行完,下一行执行需要等待设置的时间 Mail 邮件发送插件,可以根据需要给选择的邮箱发送邮件 邮箱配置和用户名密码都可以从前面的流里传过来,所以我们可以动态的给不同的邮箱发送邮件 总结:        克隆和延迟的功能我们有时候会用到,当然延迟等待还有别的插件也能实现,前面已经介绍过,注意它们之间的差别.邮

数据对接—kettle使用之十五

这一篇我们介绍几个Flow插件,Switch / Case.空操作.过滤记录.Blocking Step和中止. Switch / Case控件 这个插件式对于多种类型的值进行不同的选择路径,截图如下: 注意事项: 1.一定得有个默认的路径 2.先产生目标步骤,再进行路径连接 3.注意命名规范,最好见名知意 空操作 不做任何处理,一般作为流程的终点,截图下图: 过滤记录 通过使用一个表达式从输入行中过滤数据,将结果是TURE或FALSE的行输出到不同的节点.表达式是"""OP

数据对接—kettle使用之十四

这一篇我们继续介绍转换插件的使用,行扁平化. 行扁平化控件 这个步骤允许你扁平化预备的数据. 示例:1.定义字段 2.加入几条数据 3.设置扁平处理者 4.结果输出 总结:        通过这个例子可以清楚的看出这个插件的功能,这个插件我用的不多,所以通过通过一个例子来说明它的作用,如果脚本中需要用到这样的转换,我们知道就ok了.

数据对接—kettle使用之一

需求:       你有没有遇到过不同数据库之间数据对接的需求,比如:mysql数据库里的数据要保存到oracle数据库里,或者是excel里的数据要保存到数据库里,或者是数据库的数据要定时的保存到文件中等等数据对接的问题.下面就开始介绍一款软件来帮助我们实现各种数据对接的问题,这将是一个系列的博客,这篇只是个开始,后面将陆续的通过实例来讲解软件如何使用,当然不可能面面俱到,很多功能还需要我们不断的挖掘和完善. 工具介绍:       说了这么多这个软件到底是什么呢?就是一个我们中文意思是水壶的

数据对接—kettle使用之四

上一篇介绍了表输出插件,并通过实例介绍插件的简单使用,如果有这样的需求大家可以参考一下并深入研究插件的其它细节设置.这一篇我们介绍和表输出对应的插件(表输入)的使用. 表输入: 1. 从步骤插入数据:指定我们期待读取数据的步骤名称,这些信息能被插入到sql语句.        例如:sql:select * from ttt where date between ? and ?        注意:"?" 的数据来自其他步骤(后面的博客中会有用到),sql语句结束没有标点符号 2.实例

数据对接—kettle使用之三

 上一篇介绍了Data Grid和文本文件输出两个插件,并通过实例介绍插件的简单使用,如果有这样的需求大家可以参考一下并深入研究插件的其它细节设置.这一篇我们介绍(表输出)的使用. 表输出 1.  Target Schema:目标模式.要写数据的表的Schema的名称.允许表明中包含"."对数据源来说是很重要的 2.  目标表:要写数据的表名. 3.  提交记录数量:在数据表中用事物插入行.如果n比0大,每n行提交一次连接.否则不使用事务,速度会慢一些. 4.  裁剪表:在第一行数据插

数据对接—kettle使用之五

介绍完表输入插件,这一篇我们继续介绍kettle中的获取系统信息插件,并将结合表输入插件演示它的其中的一种用途.首先熟悉一下获取系统信息插件的一些功能: 获取系统信息 1.系统日期(可变):系统时间,每次访问都在改变. 2.系统日期(固定):系统时间,有转换开始来决定.即转换开始时间 3.开始日期范围(转换):根据etl日志表的信息,确定日期范围的开始. 4.结束日期范围(转换):根据etl日志表的信息,确定日期范围的结束. 5.开始日期范围(作业):根据etl日志表的信息,确定日期范围的开始

数据对接—kettle使用之八

之前由于一些事情耽误了,博客一直没有更新,今天开始继续完善kettle的学习,这一节开始了解转换控件的使用,首先从值映射控件开始. 值映射: 这个步骤是简单的映射字符串,从一个值映射到另一个值. 例子如下: 1.输入或者读取数据库某列值 2.值映射控件设置如下: 3.输出到日志 4.成功转换,日志输出结果: 总结:        目前此控件还不能支持数据库操作,如果需要支持数据库我们可以在此基础上进行二次开发,当然也可以通过别的途径(加一些中间操作)来和数据库交互.