2

我一直在管道中的 Sink 类别下使用 Google Cloud Storage Plugin,以获取 CSV 格式的输出。管道执行后,结果输出在拆分后进入多个文件。这是这个插件的正确行为吗?如果是,那么有没有办法在单个文件中获取合并的输出?

编辑:这似乎是插件的正确行为,在https://cloud.google.com/storage/docs/composite-objects中提到。分片是为了支持并行上传。但现在我的问题是,有没有一种简单的方法来组合所有这些拆分的文件?

4

1 回答 1

1

在输出目录中发现多个文件是预期的行为,因为 Cloud Data Fusion 在下面使用 Spark/MapReduce 来并行化管道逻辑的执行。

将输出文件合并为一个时,您对排序有什么要求吗?

于 2019-05-02T16:10:54.283 回答