我通常有一个常见的任务,我需要在由数千个文件(20,000 到 50,000 个)组成的数据集上运行脚本。这个列表通常是动态的,所以我一直在尝试提出一个解决方案,让我的 Python 代码生成我需要的所有文件的列表。
我目前的解决方案是:
os.system("ls " + dir + " | grep -i "\.extension" > " + dir + "temp.text")
with open(dir + "temp.txt", "rb") as fi:
#parse
问题是当存在许多文件并且存在许多文件类型时,这可能会非常慢。有没有更聪明的方法来处理这个问题?