数据对接—kettle使用之六

前面介绍了表输入的插件，我们可以用它来查询数据库表里的数据，那如果数据不在数据库里我们是不是没没有办法获取了呢？答案是否定的，这个软件还提供了其它的插件可以让我们轻松的获取excel、xml、文本文件等文件里的数据，下面我们就一起来简单的了解一下这些插件：

文本文件输入：

1、没有空行：不往下一步骤发送空行

2、输出包括文件名：输出包含文件名字段

3、输出包含行数：输出字段包含行号

4、格式：可以是DOS、 Unix或混合模式。UNIX行终止可以是回车、DOS是回车或换行。混合模式则不验证。

5、编码方式：默认编码方式。Unicode编码方式有Utf-8，utf-16

6、记录数量限制：设置读取记录的行数，0表示所有的。

7、解析日期时是否严格要求：启用时1月32将变为2月1号

8、错误处理标签：当错误发生时，错误处理标签可以允许你指定这个步骤将重新做些什么。

9、忽略错误

10、跳过错误行：如果不跳过错误行，解析错误字段将是空的。

11、错误计数字段：在输出流中增加一个字段，这个字段将包含错误发生的行数。

12、错误字段字段名：输出流增加字段，该字段包含错误发生的字段名称。

13、错误文本字段：输出流增加字段，该字段包含解析错误发生字段的描述。

14、警告文件目录：当警告发生时，文件将被放进该目录，文件名为:文件名。<日期时间>.<错误文件扩展>

15、错误文件目录：当错误发生时，文件将被放进该目录，文件名为：文件名.<日期时间>.<错误文件扩展>

16、失败行数文件目录：当解析发生错误，行号将被放进该目录，文件名将是：文件名.<日期时间>.<错误行扩展>

17、过滤标签：可以用来指定文件文件中要过滤的行。

18、过滤字符串：搜索字符串，将符合条件的行从输出中去掉。

19、过滤器位置： 0：起始位置。不填(<0)：表示搜索整个字符。

20、停止在过滤器：如果想在文本文件遇到过滤字符时停止处理，就指定“Y”。

EXCEL输入

1、工作表名称

2、起始行：开始读取的行。

3、起始列：开始读取的列。

4、头部：检查工作表是否指定了一个头部行。

5、非空记录：检查是否不需要空行输出。

6、停在空记录：当遇空行时停止读取。

7、文件名称字段：步骤输出指定一个包含文件名的字段。

8、工作表名称字段：步骤输出指定一个包含工作表名称的字段。

9、行号列：指定输出行号列字段名称。

XML输入

1、 Loop XPath：选择/Rows/Row

2、 Ignore comments:忽略注释

3、 Validate XML：验证XML ，一般不验证

4、 Ignore empty file：忽略空文件

5、 Include filename in output：输出步骤包含文件名字段

6、 Rownum in output：输出包含行号字段。

Cube输入

从二进制KettleCube文件中读取数据行

还有很多数据输入插件，比如：Microsoft Access Input、Mondrian Input、LDIF Input、Email messages input、MongoDB Input、Property Input、RSS Input、Json Input、OLAP Input、XBase输入等等，这里就不一一介绍了，如果用到了我们可以去深入学习一下，它们的图标如下图：

总结：上面的这些插件基本上可以满足我们获取各种信息来源的数据，通过脚本处理我们还可以将有用的数据输出到指定好的文件中，下一篇我们继续了解输出插件。

时间： 2024-09-17 03:42:59

数据对接—kettle使用之六

文本文件输入：

EXCEL输入

XML输入

Cube输入

数据对接—kettle使用之六的相关文章

数据对接—kettle使用之一

数据对接—kettle使用之四

数据对接—kettle使用之三

数据对接—kettle使用之五

数据对接—kettle使用之十六

数据对接—kettle使用之七

数据对接—kettle使用之十五

数据对接—kettle使用之十一

数据对接—kettle使用之八