azure - Azure 数据工厂 Parquet 动态架构合并

翻译自：https://stackoverflow.com/questions/62509544 2020-06-22T07:37:12.210

475 次

我在 ADLS Gen2 中有多个 Parquet 文件，Parquet 文件具有不同的列/模式，但所有不同的模式都相互兼容。当我在 ADF 中创建数据集时，它仅检测 68 列中的 26 列（在每个 parquet 文件中找到 26 列）。如果我使用 pyspark 读取文件，我可以使用以下几行来动态合并不同的模式。

parquetFile = spark.read.option("mergeSchema", "true").parquet("./data/*/*/*/*/*/")

有没有办法在 azure 数据工厂中进行类似的设置？

谢谢你和亲切的问候

azure - Azure 数据工厂 Parquet 动态架构合并

0 回答 0

Related

Reference