0

我正在使用此处找到的 tst2013.en作为我的测试集来获取测试BLEU分数以与其他以前的模型进行比较。但是,我必须过滤掉一些超过 100 个单词的句子,否则我将没有资源来运行模型。

但是对于稍微修改的测试集,将测试BLEU分数与使用未修改测试集的其他模型进行比较是否可以接受?

4

1 回答 1

1

不,要使分数具有可比性,重要的是保持测试数据的目标端完整。删除较长的句子可能会给您的 BLEU 分数带来不公平的提升,因为所有系统都倾向于在较长的句子上表现更差。

如果您的模型确实无法处理超过 100 个单词的句子(也许您可以减少批量大小?),您的问题的正确解决方案是:

  • 剪切测试数据集的端,使得句子最多100个单词,不要删除它们
  • 翻译数据集的修改源端
  • 使用测试数据的未更改目标端评估翻译
于 2019-04-23T09:06:59.540 回答