我正在 keras 中训练编码器-解码器 LSTM 用于文本摘要和具有以下架构的 CNN 数据集
我正在使用 skip-gram 预训练词嵌入(大小为 256)和
然后我用零填充输入序列,这样所有文章的长度都相等
我在每个摘要中放了一个 1 的向量作为“开始”标记
稍后在解码器输出中使用 MSE、RMSProp、tanh 激活
训练:20 epochs,batch_size=100,clip_norm=1,dropout=0.3,hidden_units=256,LR=0.001,训练样例=10000,validation_split=0.2
- 网络训练、训练和验证 MSE 下降到 0.005,但是在推理过程中,解码器不断重复产生一些没有意义的单词,并且与真正的摘要相去甚远。
我的问题是,我的训练方法、填充、损失函数、数据大小、训练时间是否存在根本性错误,导致网络无法泛化?