cntk - 我的训练数据真的是随机的吗？错误率剧烈波动

Question

所以我将随机化窗口设置为 100,000。在我的日志中，我可以看到它在 0 个错误和很多错误之间摇摆不定，这让我怀疑数据是否真的是随机的。训练数据由序列组成，其中输入通常是大约 50 个标记，输出是大约 99% 的序列的 6 个标记，另外 1% 中可能有大约 400 个标记（这些序列是最重要的学习如何输出，当然）。似乎不止一个较长的序列可能会聚集在一起，这就是错误率可能突然上升的原因。那可能吗？

score 0 · Accepted Answer

如果您的样本较小，请尝试指定较大的随机化窗口，即 randomizationWindow=100000000。可能您的窗口只是一个块 - 那么数据将仅在内部随机化，而不是在块之间。

（如果您在阅读器部分指定verbosity=4，您可以看到数据是如何拆分的，随机窗口[) 信息）。

您可以放入内存中的数据越多 - 越好。同样从 perf 的角度来看，因为（在初始加载之后）在处理数据时，读取器可以开始预取新块，并且您的 GPU 不会受到 IO 限制。

cntk - 我的训练数据真的是随机的吗？错误率剧烈波动

1 回答 1

Related

Reference