0

有兴趣知道长句子是否适合 tensor2tensor 模型训练。为什么或为什么不呢?

4

1 回答 1

1

理想情况下,训练数据应具有与目标测试数据相同的句子长度分布。例如在机器翻译中,如果最终模型打算翻译长句子,那么类似的长句子也应该用于训练。Transformer 模型似乎不能泛化到比用于训练的句子更长的句子,但限制训练中的最大句子长度允许使用更高的批量大小,这很有帮助(Popel 和 Bojar,2018 年)。

于 2019-01-18T11:49:54.520 回答