python - 如何为分散在磁盘和每个文件中的数据正确定义 Pytorch 数据集和数据加载器？

翻译自：https://stackoverflow.com/questions/65551788 2021-01-03T15:52:29.190

140 次

1

我的数据分散在多个文件中，例如f1, f2，f3其路径为p1, p2, p3。
每个文件都有 1000 个样本，可以pandas用to_pd(path).
由于我已经有一个现有的文件获取系统，因此必须按顺序加载文件。
每个文件中的数据可以随机抽样。

我已经看到了从单个文件中加载
和读取文件列表的解决方案，
但不是同时做这两个。

我想不出一种只定义自定义 pytorch 数据集的方法，因为我事先没有所有路径，但它们是在运行时出现的，只有在我完成最后一个路径后才加载一个。

我可以为每个文件创建一个数据集，但随后我必须创建一个知道如何处理这些多个数据集的数据加载器。

在 Pytorch 中这样做的正确方法是什么？

如果有帮助，我也在使用 Pytorch 闪电。

0 回答 0