0

我正在运行一个 Hudi DeltaStreamer 管道来使用来自 Kafka 的数据并写入 S3 存储桶。source如果发现记录重复,我想通过向列表添加值来更新字段。(“ uuid ”是recordkey

现有记录:

{
    "source": [0],
    "uuid": "ahdfkhu45k43h"
    "message": {
         "data": "asqwerty jdksfj",
         "message_ts": 1608285358
        }
    }
}

进货记录:

{
    "source": [1],
    "uuid": "ahdfkhu45k43h"
    "message": {
         "data": "asqwerty jdksfj",
         "message_ts": 1608285358
        }
    }
}

更新记录:

{
    "source": [0, 1],
    "uuid": "ahdfkhu45k43h"
    "message": {
         "data": "asqwerty jdksfj",
         "message_ts": 1608285358
        }
    }
}

如何使用 DeltaStreamer 实现上述目标?

4

0 回答 0