2

我正在使用镶嵌决策数据流功能从 Azure Blob 读取文件,进行一些转换并将该数据写回 Azure。它工作得很好,除了在我给出的输出文件路径中,它创建了一个文件夹,我可以看到许多文件名称中有一些奇怪的“part-000”等。我需要的是该输出位置中的单个文件——不多。有没有解决的办法?

4

1 回答 1

2

Mosaic-Decisions 使用 apache spark 作为其后端执行引擎。在 Spark 中,读取的数据帧被拆分为多个分区,这些分区并行写入输出位置。这就是它在目标位置使用“part-0000”、“part-0001”等创建多个文件的原因(这里的部分代表分区)。

解决方法是检查写入节点中的“combine-output-files-into-one”。这会将所有零件文件合并为一个大文件。但请谨慎使用,并且仅在您确实需要单个文件时才使用 - 因为这会带来性能折衷。

于 2020-06-17T21:22:46.430 回答