我使用 Azure ML python API 创建了一个表格数据集。有问题的数据是一组 parquet 文件(约 10K parquet 文件,每个大小为 330 KB),位于 Azure Data Lake Gen 2 中,分布在多个分区中。当我尝试使用 API 加载数据集时TabularDataset.to_pandas_dataframe()
,如果数据集中包含空的镶木地板文件,它将永远继续(挂起)。如果表格数据集不包含那些空的 parquet 文件,则TabularDataset.to_pandas_dataframe()
在几分钟内完成。
空镶木地板文件是指如果我使用 pandas (pd.read_parquet()) 读取单个镶木地板文件,则会导致空 DF (df.empty == True)。
我在处理提到的另一个问题时发现了根本原因[here][1]
。
TabularDataset.to_pandas_dataframe()
我的问题是,即使有空的镶木地板文件,如何才能工作?