1

我正在尝试从 csv 文件中导入数据,不幸的是,该文件包含多个数据表。实际上,它并不是真正的纯 csv 文件。

它包含一个带有一些元数据的标题字段,然后实际的 csv 数据部分由以下分隔:

//-------------

Table <table_nr>;;;;

示例文件如下所示:

Summary;;
Reporting Date;29/05/2013;12:36:18
Report Name;xyz
Reporting Period From;20/05/2013;00:00:00
Reporting Period To;26/05/2013;23:59:59


//-------------

Table 1;;;;
header1;header2;header3;header4;header5
string_aw;0;0;0;0
string_ax;1;1;1;0
string_ay;1;2;0;1
string_az;0;0;0;0
TOTAL;2;3;1;1


//-------------

Table 2;;;
header1;header2;header3;header4
string_bv;2;2;2
string_bw;3;2;3
string_bx;1;1;1
string_by;1;1;1
string_bz;0;0;0

使用水壶处理加载此类数据的最佳方法是什么?

有没有办法将此文件拆分为标题和 csv 数据部分,然后将它们中的每一个作为单独的输入进行处理?

提前感谢任何提示和提示。

最好的,海斯。

4

1 回答 1

2

我认为没有任何步骤可以真正帮助您处理这种格式的数据。在将数据导入 CSV 步骤之前,您可能需要进行一些预处理。但是,您仍然可以在您的工作中执行此操作,方法是调用 shell 并首先在其中执行一个命令,例如 awk 脚本将文件拆分为其组件文件,然后通过正常的 Kettle 模式加载这些文件。

于 2013-05-29T16:15:37.710 回答