我正在使用 Dataflow(现在是 Beam)来处理遗留文本文件以复制现有 ETL 工具的转换。当前进程添加一个记录号(每个文件中每一行的记录号)和文件名。他们想要保留这些附加信息的原因是,他们可以知道源数据来自哪个文件和记录偏移量。
我想达到一个点,即我有一个 PCollection,其中包含文件记录号和文件名作为键的值或部分的附加字段。
我看过另一篇文章,其中文件名可以填充到生成的 PCollection 中,但是我没有添加每行记录数的解决方案。目前我能做到的唯一方法是在开始 Dataflow 过程之前预处理文件(这很遗憾,因为我希望 Dataflow/Beam 来完成这一切)