1

在机器翻译中,序列到序列模型变得非常流行。他们经常使用一些技巧来提高性能,例如集成或平均一组模型。这里的逻辑是错误将“平均”。

据我了解,平均模型只是取 X 模型参数的平均值,然后创建可用于解码测试数据的单个模型。然而, Ensembling平均每个模型的输出。这需要更多的资源,因为 X 模型必须提供输出,而平均模型仅在测试数据上运行一次。

这里到底有什么区别?输出有何不同?在我的测试中,这两种方法都比基线分数略有提高。这让你想知道如果人们也可以平均的话,为什么还要为合奏而烦恼。然而,在我遇到的所有神经机器翻译论文中,人们谈论的是集成而不是平均。为什么是这样?有没有关于平均的论文(特别是 seq2seq 和机器翻译相关的论文)?

任何帮助是极大的赞赏!

4

1 回答 1

0

合奏是一个更笼统的术语。Baggingboosting是集成方法的示例。

例如,随机森林不只是平均决策树,它使用bagging - 首先随机采样数据和特征,然后在此基础上训练树(使用所有数据/特征没有多大意义,因为树会非常相似)。

于 2017-09-06T12:55:35.750 回答