我是 Kettle 的新手,但到目前为止一切正常。但是我无法弄清楚如何做到这一点。
我有一个看起来像这样的 csv
a, col1, col2, col3
a, col1, col2, col3
a, col1, col2, col3
b, col1, col2, col3
b, col1, col2, col3
c, col1, col2, col3
c, col1, col2, col3
第一列以键 (a,b,c) 开头,然后是其余列。我想要做的是在 csv 中读取(覆盖),然后根据键拆分 csv,所以我有 3 个数据块/组数据,然后将这些数据块中的每一个转换为一个单独的 json 文件,我认为我能得到。
我无法理解的是对数据进行分组,然后对每个单独的组执行单独的操作(转换为 json)。它不是我有问题的创建 json。
数据来自许多环境传感器的传感器网络,因此有许多键,数百个,并且添加了新键。我之前使用 map reduce 来处理这些数据,因为分区的概念是我在这里尝试复制的,而不使用kettle 的hadoop 元素,因为部署不同。一旦我对数据进行了分区,它就需要作为单独的记录加载到不同的地方。密钥是传感器的唯一 ID(序列号)。
请问有什么想法吗?
谢谢