validation - 如果我们先扩充数据然后随机选择数据然后拆分数据可以吗？

Question

我正在做一个关于对医学图像进行分类的科学项目，但我没有很多数据，所以我可以先扩充数据，然后随机选择要保留的数据，然后再拆分保留的数据吗？起初，我的老师告诉我先扩充数据，然后将数据拆分为训练、验证和测试。但是我认为我提出的方法会使训练数据集与测试数据集发生冲突，这将导致准确性不切实际（太高），所以我认为我在进行数据增强后随机选择文件的方法应该有助于增强数据集彼此不要太相似，解决数据集数量不平衡的问题。

score 0 · Accepted Answer

我们希望我们的模型能够很好地在训练集上泛化，所以从技术上讲，我们应该只在训练集上进行数据增强。我建议您将数据集拆分为训练、验证和测试，然后仅在训练集上进行数据扩充。

validation - 如果我们先扩充数据然后随机选择数据然后拆分数据可以吗？

1 回答 1

Related

Reference