machine-translation - 如何使用 BLEU 分数将您的模型与现有模型进行比较？

Question

所以我使用 BLEU 分数指标来比较我的 NMT 模型与现有模型的性能。但是，我想知道我必须与其他模型匹配多少设置。

我认为开发集、测试集和超参数等设置是可行的。但是，我使用的预处理步骤与现有模型不同，所以我想知道我的模型的 BLEU 分数是否可以与其他模型进行比较。现有模型也有可能具有未报告的隐藏参数。

https://arxiv.org/pdf/1804.08771.pdf解决了报告 BLEU 和调用切换到 SacreBLEU 的问题。但是许多现有模型都使用 BLEU，所以我认为我不能在我的模型上使用 SacreBLEU 得分指标。

score 1 · Accepted Answer

tl;博士

SacreBLEU 不是一个不同的指标，它是 BLEU 的一个实现，所以你在论文中看到的 BLEU 报告应该与你从 SacreBLEU 得到的相当。尽可能使用 SacreBLEU。

BLEU 评分简史

BLEU 分数对标记化非常敏感，因此每个人都使用相同的分数很重要。最初，从 2001 年开始有一个 Perl 实现，长期以来被认为是 BLEU 的规范实现。使用脚本有很多麻烦（它在 Perl 中，要求数据采用相当模糊的 SGM 格式）。正因为如此（并且因为 BLEU 分数相当简单），许多独立的实现出现了，例如，在MultEval、NLTK中。它们更易于使用，但由于数据预处理中的一些细微差异不会产生相同的结果。SacreBLEU 可以进行相同的标记化并获得与原始 Perl 脚本相同的分数，但以明文形式读取数据，并且使用 Python，目前在机器翻译中使用最多。

machine-translation - 如何使用 BLEU 分数将您的模型与现有模型进行比较？

1 回答 1

tl;博士

BLEU 评分简史

Related

Reference