1
  1. 我的数据分散在多个文件中,例如f1, f2f3其路径为p1, p2, p3
  2. 每个文件都有 1000 个样本,可以pandasto_pd(path).
  3. 由于我已经有一个现有的文件获取系统,因此必须按顺序加载文件。
  4. 每个文件中的数据可以随机抽样。

我已经看到了从单个文件中加载
读取文件列表的解决方案,
但不是同时做这两个。


我想不出一种只定义自定义 pytorch 数据集的方法,因为我事先没有所有路径,但它们是在运行时出现的,只有在我完成最后一个路径后才加载一个。

我可以为每个文件创建一个数据集,但随后我必须创建一个知道如何处理这些多个数据集的数据加载器。


在 Pytorch 中这样做的正确方法是什么?

如果有帮助,我也在使用 Pytorch 闪电。

4

0 回答 0