我正在训练一个深度自动编码器(现在是 5 层编码和 5 层解码,使用泄漏的 ReLu)来将数据的维度从大约 2000 维降低到 2。我可以在 10k 数据上训练我的模型,结果是可以接受的。当我使用更大的数据(50k 到 1M)时,就会出现问题。使用具有相同优化器的相同模型并退出等不起作用,并且训练在几个时期后陷入困境。我正在尝试对优化器进行一些超参数搜索(我正在使用 adam),但我不确定这是否能解决问题。
我应该寻找其他东西来改变/检查吗?在这种情况下,批量大小是否重要?我应该通过微调优化器来解决问题吗?我应该玩辍学率吗?...
非常感谢任何建议。
ps 我正在使用 Keras。非常方便。如果您对此不了解,请查看: http: //keras.io/