我正在运行一个 Hudi DeltaStreamer 管道来使用来自 Kafka 的数据并写入 S3 存储桶。source
如果发现记录重复,我想通过向列表添加值来更新字段。(“ uuid ”是recordkey
)
现有记录:
{
"source": [0],
"uuid": "ahdfkhu45k43h"
"message": {
"data": "asqwerty jdksfj",
"message_ts": 1608285358
}
}
}
进货记录:
{
"source": [1],
"uuid": "ahdfkhu45k43h"
"message": {
"data": "asqwerty jdksfj",
"message_ts": 1608285358
}
}
}
更新记录:
{
"source": [0, 1],
"uuid": "ahdfkhu45k43h"
"message": {
"data": "asqwerty jdksfj",
"message_ts": 1608285358
}
}
}
如何使用 DeltaStreamer 实现上述目标?