0

我有一个 ADLS,其中有几个文件夹,这些文件夹又具有子文件夹等等,直到我们在其中有 CSV 或 Parquet 数据。

如何使用databricks中的文件格式获取此文件夹中的文件夹名称和子文件夹?还有一些我根本不想考虑的垃圾文件夹,比如 Folder123、Folder_dummy 等。

建议请..

4

1 回答 1

0

您可以在不知道所有可能的文件夹名称的地方添加通配符。例如,如果你想从嵌套路径查询 parquet 文件,你可以使用这个,

select * from parquet.`{Your ADLS folder}/*/{SomeSpecificFolder}/{your parquet}.parquet`

只要您知道要查询的镶木地板并单独使用 Databricks/Spark SQL,您就可以将通配符用于任何扩展

于 2020-09-17T20:44:24.800 回答