我正在寻找一种方法来遍历包含 100,000 个文件的目录。使用os.listdir
非常慢,因为此函数首先从整个指定路径中获取路径列表。
最快的选择是什么?
注意:投反对票的人肯定从未遇到过这种情况。
另一个问题在评论中被称为重复:
List files in a folder as a stream to begin process
...但我发现这个例子是半不工作的。这是适合我的固定版本:
from ctypes import CDLL, c_int, c_uint8, c_uint16, c_uint32, c_char, c_char_p, Structure, POINTER
from ctypes.util import find_library
import os
class c_dir(Structure):
pass
class c_dirent(Structure):
_fields_ = [
("d_fileno", c_uint32),
("d_reclen", c_uint16),
("d_type", c_uint8),
("d_namlen", c_uint8),
("d_name", c_char * 4096),
# proper way of getting platform MAX filename size?
# ("d_name", c_char * (os.pathconf('.', 'PC_NAME_MAX')+1) )
]
c_dirent_p = POINTER(c_dirent)
c_dir_p = POINTER(c_dir)
c_lib = CDLL(find_library("c"))
opendir = c_lib.opendir
opendir.argtypes = [c_char_p]
opendir.restype = c_dir_p
# FIXME Should probably use readdir_r here
readdir = c_lib.readdir
readdir.argtypes = [c_dir_p]
readdir.restype = c_dirent_p
closedir = c_lib.closedir
closedir.argtypes = [c_dir_p]
closedir.restype = c_int
def listdir(path):
"""
A generator to return the names of files in the directory passed in
"""
dir_p = opendir(".")
try:
while True:
p = readdir(dir_p)
if not p:
break
name = p.contents.d_name
if name not in (".", ".."):
yield name
finally:
closedir(dir_p)
if __name__ == "__main__":
for name in listdir("."):
print name
你对目录中的每个文件做了什么?我认为使用 os.listdir 并没有真正的选择,但取决于你在做什么,你可能能够并行处理文件。例如,我们可以使用多处理库中的 Pool 来生成更多 Python 进程,然后让每个进程遍历文件的较小子集。
http://docs.python.org/library/multiprocessing.html
这有点粗略,但我认为它明白了这一点......
import sys
import os
from processing import Pool
p = Pool(3)
def work(subsetOfFiles):
for file in subsetOfFiles:
with open(file, 'r') as f:
#read file, do work
return "data"
p.map(work, [[#subSetFiles1],[#subSetFiles2],[#subSetFiles3]])
大体思路是从os.listdir中获取文件列表,但是我们不是一个个去10万多个文件,而是将10万个文件拆分成20个5000个文件的列表,每个进程处理5000个文件。这种方法的好处之一是它将受益于当前的多核系统趋势。