1

我在 ADLS Gen2 中有多个 Parquet 文件,Parquet 文件具有不同的列/模式,但所有不同的模式都相互兼容。当我在 ADF 中创建数据集时,它仅检测 68 列中的 26 列(在每个 parquet 文件中找到 26 列)。如果我使用 pyspark 读取文件,我可以使用以下几行来动态合并不同的模式。

parquetFile = spark.read.option("mergeSchema", "true").parquet("./data/*/*/*/*/*/")

有没有办法在 azure 数据工厂中进行类似的设置?

谢谢你和亲切的问候

4

0 回答 0