0

我正在尝试运行关于我的 Azure Gen2 数据湖存储的报告。我编写了一个下面的递归函数,该函数进入每个文件夹并列出文件直到最后一级。

def recursive_ls(path: str):
  
    """List all files from path recursively."""
    for file in dbutils.fs.ls(path):
        if file.path[-1] is not '/':
            yield (file.path.split('/')[3:11],file.size)
        else:
            for folder in recursive_ls(file.path):
                yield folder

我有大量的文件,因此这个功能即使在 2 小时后也没有出现。

这可能会发生,因为它当前由一个进程处理。我需要某种方式在多处理环境中执行这些执行器功能。

4

0 回答 0