我有一个非常复杂的基于 LSTM 的神经网络模型,我正在对 Quora Duplicate Question 对进行训练。原始数据集中大约有 400 000 个句子对。在整个(或 80%)数据集上进行训练需要大量的处理能力和计算时间。如果我选择数据集的一个随机子集(例如仅 8000 对)用于训练,而选择 2000 对用于测试,那会不会很不明智?会对性能造成严重影响吗?“更多的数据,更好的模型”总是真的吗?
问问题
22 次
我有一个非常复杂的基于 LSTM 的神经网络模型,我正在对 Quora Duplicate Question 对进行训练。原始数据集中大约有 400 000 个句子对。在整个(或 80%)数据集上进行训练需要大量的处理能力和计算时间。如果我选择数据集的一个随机子集(例如仅 8000 对)用于训练,而选择 2000 对用于测试,那会不会很不明智?会对性能造成严重影响吗?“更多的数据,更好的模型”总是真的吗?