86

root、dir、file in 的循环os.walk(startdir)通过这些步骤工作吗?

for root in os.walk(startdir) 
    for dir in root 
        for files in dir
  1. 获取起始目录的根目录:C:\dir1\dir2\startdir

  2. 获取 C:\dir1\dir2\startdir 中的文件夹并返回文件夹列表“dirlist”

  3. 在第一个 dirlist 项中获取文件,并将文件列表“filelist”作为文件列表列表的第一项返回。

  4. 移动到 dirlist 中的第二项,并将此文件夹“filelist2”中的文件列表作为文件列表列表的第二项返回。等等

  5. 移动到文件夹树中的下一个根并从 2. 等开始。

对?还是首先获取所有根目录,然后是所有目录,然后是所有文件?

4

6 回答 6

108

os.walk返回一个生成器,它创建一个值元组(current_path、current_path 中的目录、current_path 中的文件)。

每次调用生成器时,它都会递归地跟踪每个目录,直到调用 walk 的初始目录中没有可用的子目录。

像这样,

os.walk('C:\dir1\dir2\startdir').next()[0] # returns 'C:\dir1\dir2\startdir'
os.walk('C:\dir1\dir2\startdir').next()[1] # returns all the dirs in 'C:\dir1\dir2\startdir'
os.walk('C:\dir1\dir2\startdir').next()[2] # returns all the files in 'C:\dir1\dir2\startdir'

所以

import os.path
....
for path, directories, files in os.walk('C:\dir1\dir2\startdir'):
     if file in files:
          print('found %s' % os.path.join(path, file))

或这个

def search_file(directory = None, file = None):
    assert os.path.isdir(directory)
    for cur_path, directories, files in os.walk(directory):
        if file in files:
            return os.path.join(directory, cur_path, file)
    return None

或者如果你想查找文件,你可以这样做:

import os
def search_file(directory = None, file = None):
    assert os.path.isdir(directory)
    current_path, directories, files = os.walk(directory).next()
    if file in files:
        return os.path.join(directory, file)
    elif directories == '':
        return None
    else:
        for new_directory in directories:
            result = search_file(directory = os.path.join(directory, new_directory), file = file)
            if result:
                return result
        return None
于 2012-06-12T00:27:49.087 回答
56

最小可运行示例

这就是我喜欢学习的方式:

mkdir root
cd root
mkdir \
  d0 \
  d1 \
  d0/d0_d1
touch \
  f0 \
  d0/d0_f0 \
  d0/d0_f1 \
  d0/d0_d1/d0_d1_f0
tree

输出:

.
├── d0
│   ├── d0_d1
│   │   └── d0_d1_f0
│   ├── d0_f0
│   └── d0_f1
├── d1
└── f0

主文件

#!/usr/bin/env python3
import os
for path, dirnames, filenames in os.walk('root'):
    print('{} {} {}'.format(repr(path), repr(dirnames), repr(filenames)))

输出:

'root' ['d0', 'd1'] ['f0']
'root/d0' ['d0_d1'] ['d0_f0', 'd0_f1']
'root/d0/d0_d1' [] ['d0_d1_f0']
'root/d1' [] []

这让一切都清楚了:

  • path是每一步的根目录
  • dirnames是每个目录基名的列表path
  • filenames是每个文件基名的列表path

在 Ubuntu 16.04、Python 3.5.2 上测试。

修改dirnames更改树递归

这基本上是你唯一需要记住的事情。

例如,如果您对 执行以下操作dirnames,则会影响遍历:

遍历文件或目录

如果 traverse 的输入是文件或目录,则可以这样处理:

#!/usr/bin/env python3

import os
import sys

def walk_file_or_dir(root):
    if os.path.isfile(root):
        dirname, basename = os.path.split(root)
        yield dirname, [], [basename]
    else:
        for path, dirnames, filenames in os.walk(root):
            yield path, dirnames, filenames

for path, dirnames, filenames in walk_file_or_dir(sys.argv[1]):
    print(path, dirnames, filenames)
于 2019-02-20T16:00:42.007 回答
13

简而言之,os.walk() 将生成给定路径中存在的路径、文件夹、文件的元组,并将继续遍历子文件夹。

import os.path
path=input(" enter the path\n")
for path,subdir,files in os.walk(path):
   for name in subdir:
       print os.path.join(path,name) # will print path of directories
   for name in files:    
       print os.path.join(path,name) # will print path of files

这将生成所有子目录、文件和子目录中文件的路径

于 2016-07-15T10:20:38.657 回答
6

这是os.walk()如何工作的一个简短示例,并使用一些os函数进行了一些解释。

首先注意os.walk()返回三个项目,根目录、dirs当前根目录下的目录列表 ( ) 以及在这些目录中找到的文件列表。该文档将为您提供更多信息。

dirs将包含根目录下的目录列表,而 files 将包含在这些目录中找到的所有文件的列表。在下一次迭代中,上一个dirs列表中的每个目录将依次扮演角色,root搜索将从那里继续,只有在搜索完当前级别后才会下一个级别。

代码示例:这将搜索、计算和打印指定搜索目录(您的根目录)下的文件名.jpg 和文件名。.gif它还利用os.path.splitext()函数将文件的基础与其扩展名分开,并使用os.path.join()函数为您提供包含找到的图像文件的路径的全名。

import os

searchdir = r'C:\your_root_dir'  # your search starts in this directory (your root) 

count = 0
for root, dirs, files in os.walk(searchdir):
    for name in files:
        (base, ext) = os.path.splitext(name) # split base and extension
        if ext in ('.jpg', '.gif'):          # check the extension
            count += 1
            full_name = os.path.join(root, name) # create full path
            print(full_name)

print('\ntotal number of .jpg and .gif files found: %d' % count)
于 2012-06-12T00:27:48.673 回答
2

os.walk 的工作方式与上面的略有不同。基本上,它返回(路径、目录、文件)的元组。要看到这一点,请尝试以下操作:

import pprint
import os
pp=pprint.PrettyPrinter(indent=4)
for dir_tuple in os.walk("/root"):
    pp.pprint(dir_tuple)

...您将看到循环的每次迭代都将打印一个目录名称,该目录中立即列出的所有目录的名称,以及该目录中所有文件的另一个列表。os.walk 然后会进入子目录列表中的每个目录,并做同样的事情,直到原根目录的所有子目录都被遍历完。了解一些有关递归的知识以了解其工作原理可能会有所帮助。

于 2012-06-12T00:24:57.723 回答
1

我的回答非常基本和简单。我自己也是一个初学者,在网上找到了我的答案(尤其是docs.python.org 上的好文档)并尝试了一些测试代码,比如这个:

for root, dirs, files in os.walk(startdir)
    print ("__________________")
    print (root)
    for file in files:
        print ("---",file)

这会打印出目录树,其中每个目录(起始目录和包含的子目录)前面都有一行,后面是其中包含的文件。

我认为你必须记住两点:

(1) os.walk 生成一个三元组(一个三元组)<root,dirs,filenames> 其中

  • root 是一个包含根目录名称的字符串;

  • dirs 是一个字符串列表:根目录中直接包含的目录名,即第一级,可能不包含子目录;

  • filenames 是一个字符串列表:根目录中直接包含的文件名。

(2) for 循环,例如

for root, subdirs, files in os.walk(YourStartDir)

循环通过根目录及其所有子目录。每个文件都不需要一个步骤;它只是扫描目录树,并在每一步(对于树中的每个目录)填充其中包含的文件名列表和直接包含在其中的子目录列表。如果你有n 个目录(包括根目录和它的子目录),for 循环循环n次,即它需要n步。您可以编写一小段测试代码来检查这一点,例如使用计数器。在每一步,它都会生成一个 3 元组:一个字符串加上两个(可能是空的)字符串列表。在本例中,三元组的元素被称为:“root”、“subdirs”、“files”,但这些名称由您决定;如果您的代码是

for a, b, c in os.walk(startdir)

三元组的元素将被称为“a”、“b”、“c”。

让我们回到测试代码:

for root, dirs, files in os.walk(startdir)
    print ("__________________")
    print (root)
    for file in files:
        print ("---",file)

第一个循环:root 是您在输入中给出的目录(起始路径,起始目录:一个字符串),dirs 是包含的子目录名称的列表(但不是其中包含的目录的名称),文件是包含文件的列表。在测试代​​码中,我们没有使用列表“dirs”。

第二个循环:root 现在是第一个子目录,dirs 是其中包含的子目录的列表,files 是其中包含的文件的列表。

...依此类推,直到到达树中的最后一个子目录。

os.walk 有三个可选参数:你可以在网上找到很多关于它们及其使用的信息,但我认为你的问题是关于 os.walk 的基础知识。

于 2021-07-19T09:20:13.850 回答