所以我使用 BLEU 分数指标来比较我的 NMT 模型与现有模型的性能。但是,我想知道我必须与其他模型匹配多少设置。
我认为开发集、测试集和超参数等设置是可行的。但是,我使用的预处理步骤与现有模型不同,所以我想知道我的模型的 BLEU 分数是否可以与其他模型进行比较。现有模型也有可能具有未报告的隐藏参数。
https://arxiv.org/pdf/1804.08771.pdf解决了报告 BLEU 和调用切换到 SacreBLEU 的问题。但是许多现有模型都使用 BLEU,所以我认为我不能在我的模型上使用 SacreBLEU 得分指标。