python - 包含多个示例的文件的 Chainer 迭代器，无需预加载

Question

我有超过 100,000 个文件，每个文件包含 20 多个示例。每个文件的样本数不同。如何在 Chainer 中创建批量大小约为 10 的迭代器，而无需将所有文件预加载到内存中？

score 0 · Accepted Answer

我认为您可以使用DatasetMixin类来定义自己的数据集。您可以覆盖get_example(i)提取i-th 数据的方法，以便在需要内部数据时加载文件get_example(i)。但是，它仍然需要“预索引”，这意味着您需要定义哪个i-th 数据对应于哪个文件。

以下是如何定义自己的DatasetMixin类的参考。

1 回答 1