machine-translation - 可以在使用稍微修改的标准测试集的同时比较 NMT 模型之间的 Test BLEU 分数吗？

翻译自：https://stackoverflow.com/questions/55791319 2019-04-22T08:20:01.377

39 次

0

我正在使用此处找到的 tst2013.en作为我的测试集来获取测试BLEU分数以与其他以前的模型进行比较。但是，我必须过滤掉一些超过 100 个单词的句子，否则我将没有资源来运行模型。

但是对于稍微修改的测试集，将测试BLEU分数与使用未修改测试集的其他模型进行比较是否可以接受？

1 回答 1

1

不，要使分数具有可比性，重要的是保持测试数据的目标端完整。删除较长的句子可能会给您的 BLEU 分数带来不公平的提升，因为所有系统都倾向于在较长的句子上表现更差。

如果您的模型确实无法处理超过 100 个单词的句子（也许您可以减少批量大小？），您的问题的正确解决方案是：

剪切测试数据集的源端，使得句子最多100个单词，不要删除它们
翻译数据集的修改源端
使用测试数据的未更改目标端评估翻译

于 2019-04-23T09:06:59.540 回答