0

在 ADLS Gen2 中,TextFiles 文件夹有 3 个 CSV 文件。每个文件中的列名不同。

我们需要将所有 3 个 CSV 文件转换为 3 个 parquet 文件并将其放在 ParquetFiles 文件夹中

我尝试使用 Copy Activity 但它失败了,因为列名中有空格并且镶木地板文件不允许它

要删除空格,我使用了数据流:Source -> Select(在 col 名称中用下划线替换空格)和 sink。这适用于单个文件。当我尝试对所有 3 个文件执行此操作时,它会尝试合并 3 个文件并生成包含不正确数据的单个文件。

如何解决这个问题,主要是去掉所有文件中列名的空格。这里还有什么其他选择?

4

2 回答 2

0

管道:ForEach 活动(遍历文件夹中的 CSV 文件,并将当前迭代项作为参数发送到数据流)-> 带有指向该文件夹的源的数据流活动(参数化源路径中的文件名)

于 2020-08-28T18:56:02.713 回答
0

我创建了 2 个数据集,一个采用通配符格式的 csv,另一个采用 parquet 格式。我使用了数据复制活动,将 parquet 数据集作为接收器,将 csv 数据集作为源。我将复制行为设置为合并文件。

于 2021-10-07T03:56:01.747 回答