我正在训练一个 LSTM 网络,我希望了解在长序列、O(1k) 长度或更多长度上进行训练的最佳实践。选择小批量大小的好方法是什么?标签流行度的偏差将如何影响该选择?(在我的情况下,阳性很少见)。努力重新平衡我的数据是否值得?谢谢。
问问题
734 次
1 回答
2
你可能想要重新平衡,所以它们是 50/50。否则它将偏向一个或另一个类。
至于批量大小,我会尽可能大,以适应内存。
我不确定 LSTM 是否能够学习对 O(1k) 的依赖,但值得一试。如果你想要超长的依赖关系,你可以考虑做类似 wavenet 的事情。
https://deepmind.com/blog/wavenet-generation-model-raw-audio/
于 2016-12-02T00:19:57.137 回答