我使用 Azure ML python API 创建了一个表格数据集。有问题的数据是一组 parquet 文件(约 10K parquet 文件,每个大小为 330 KB),位于 Azure Data Lake Gen 2 中,分布在多个分区中。当我为数据集触发“生成配置文件”操作时,它会在处理空镶木地板文件时引发以下错误,然后配置文件生成停止。
User program failed with ExecutionError:
Error Code: ScriptExecution.StreamAccess.Validation
Validation Error Code: NotSupported
Validation Target: ParquetFile
Failed Step: 77866d0a-8243-4d3d-8bc6-599d466488dd
Error Message: ScriptExecutionException was caused by StreamAccessException.
Failed to read Parquet file at: <my_blob_path>/20211217.parquet
Current parquet file is not supported.
Exception of type 'Thrift.Protocol.TProtocolException' was thrown.
| session_id=6be4db0b-bdc1-4dd6-b8a6-6e9466f7bc54
空的 parquet 文件是指如果我使用 pandas ( pd.read_parquet
) 读取单个 parquet 文件,它会导致一个空的 DF (df.empty == True)。
任何避免此错误的建议将不胜感激。