我使用 ADF 以 Parquet Snappy 格式将数据从 SQL 服务器摄取到 ADLS GEN2,但是接收器中的文件大小高达 120 GB,当我在 Spark 中读取此文件并加入时,该大小给我带来了很多问题此文件中的数据与许多其他 Parquet 文件。
我正在考虑使用指向 ADLS 位置的 Delta Lake 的 unManaged 表,如果我不使用它指定任何分区,我可以创建一个 UnManaged 表
“转换为 DELTA 镶木地板。PATH TO FOLDER CONTAINING A PARQUET FILE(S)
”
但是如果我想对这个文件进行分区以进行查询优化
“ CONVERT TO DELTA parquet. PATH TO FOLDER CONTAINING A PARQUET FILE(S)
, PARTITIONED_COLUMN DATATYPE”
它给了我屏幕截图中提到的错误(查找附件)。
文本错误:- org.apache.spark.sql.AnalysisException:期望 1 个分区列:[ <PARTITIONED_COLUMN>
],但从解析文件名中找到 0 个分区列:[]:abfss://mydirectory@myADLS .dfs.core.windows.net/level1/Level2/Table1.parquet.snappy;
我无法使用带有分区详细信息的 ADF 创建这个 Parquet 文件(我愿意接受建议)
我是否给出了错误的语法,或者这甚至可以完成?