0

我正在尝试实现字符 RNN 以进行拼写纠正和标记化。该模型基于 seq2seq 模型的实际 pytorch GRU-RNN 实现-损失函数像他们在这里使用的一样是掩蔽的交叉熵,我正在为我的编码器/解码器使用 2 层双向 GRU。我还使用了教师强制比率为 0.5 的计划抽样。

我遇到的问题是系统正在努力输出结束令牌。诸如“do3s t4is w0rk”之类的句子被正确地更改为“是否有效”,但随后会输出随机令牌,直到系统达到其最大输出长度或看似随机放下 EOS 令牌,从而使输出类似于“does”这个工作kkkkk orwk EOS'。

有人对这个问题有任何见解吗?我尝试揭露我的损失函数,但这导致系统现在输出 PAD 令牌。该系统能够过度拟合非常简单的集合,因此我认为训练中没有错误。任何输入将不胜感激!

4

0 回答 0