- 我的数据分散在多个文件中,例如
f1
,f2
,f3
其路径为p1
,p2
,p3
。 - 每个文件都有 1000 个样本,可以
pandas
用to_pd(path)
. - 由于我已经有一个现有的文件获取系统,因此必须按顺序加载文件。
- 每个文件中的数据可以随机抽样。
我已经看到了从单个文件中加载
和读取文件列表的解决方案,
但不是同时做这两个。
我想不出一种只定义自定义 pytorch 数据集的方法,因为我事先没有所有路径,但它们是在运行时出现的,只有在我完成最后一个路径后才加载一个。
我可以为每个文件创建一个数据集,但随后我必须创建一个知道如何处理这些多个数据集的数据加载器。
在 Pytorch 中这样做的正确方法是什么?
如果有帮助,我也在使用 Pytorch 闪电。