0

我的任务是训练一个机器学习模型。我想产生文件以避免将来出现内存问题。我偶然发现了一个我稍微调整了一下的解决方案。但是修改并不能完全满足我的需要。假设我拥有的文件夹结构如下:

../

一个/

2014-01-01

2014-01-05

2014-01-06

/乙

2014-01-02

2014-01-06

...

所以基本上在文件夹中:测试,我有子目录,如:A,B .. 等。在每个子目录中,我有日期:2014-01-01 等。

我需要生成器做的是按日期时间顺序生成文件,忽略目录本身(顺序子目录无关紧要,我可以先从 B 获取文件,然后从 A 获取文件,没关系)

我有以下代码atm:

def sort_func(x):
    x_ = x
    x = str(x)
    # dates - files
    try:
        return datetime.datetime.strptime(x, "%Y-%m-%d")
    # folder. Ignore
    except ValueError as e:
        return x_
    except Exception as e:
        raise(e)

p = pathlib.Path('../datasets/train/')

a = sorted(p.glob('**/*'), key=sort_func)

这将输出如下内容:

[PosixPath('../datasets/train/A'),
 PosixPath('../datasets/train/A/2014-01-01'),
 PosixPath('../datasets/train/A/2014-01-02'),
 PosixPath('../datasets/train/A/2014-01-03'),
...]

即我不需要第一个路径和所有目录路径。

我如何省略这些?

编辑:实际上,glob 似乎返回了一个列表......p.glob('*/*')似乎可以解决问题,但是sorted(.)给了我一个列表而不是一个一个地产生文件

4

1 回答 1

0

is_file您可以使用对象的方法进行过滤Path

a = sorted([path for path in p.glob('**/*') if path.is_file()], key=sort_func)
于 2018-06-30T17:15:05.987 回答