我正在尝试运行关于我的 Azure Gen2 数据湖存储的报告。我编写了一个下面的递归函数,该函数进入每个文件夹并列出文件直到最后一级。
def recursive_ls(path: str):
"""List all files from path recursively."""
for file in dbutils.fs.ls(path):
if file.path[-1] is not '/':
yield (file.path.split('/')[3:11],file.size)
else:
for folder in recursive_ls(file.path):
yield folder
我有大量的文件,因此这个功能即使在 2 小时后也没有出现。
这可能会发生,因为它当前由一个进程处理。我需要某种方式在多处理环境中执行这些执行器功能。