0

所以我使用 BLEU 分数指标来比较我的 NMT 模型与现有模型的性能。但是,我想知道我必须与其他模型匹配多少设置。

我认为开发集、测试集和超参数等设置是可行的。但是,我使用的预处理步骤与现有模型不同,所以我想知道我的模型的 BLEU 分数是否可以与其他模型进行比较。现有模型也有可能具有未报告的隐藏参数。

https://arxiv.org/pdf/1804.08771.pdf解决了报告 BLEU 和调用切换到 SacreBLEU 的问题。但是许多现有模型都使用 BLEU,所以我认为我不能在我的模型上使用 SacreBLEU 得分指标。

4

1 回答 1

1

tl;博士

SacreBLEU 不是一个不同的指标,它是 BLEU 的一个实现,所以你在论文中看到的 BLEU 报告应该与你从 SacreBLEU 得到的相当。尽可能使用 SacreBLEU。

BLEU 评分简史

BLEU 分数对标记化非常敏感,因此每个人都使用相同的分数很重要。最初,从 2001 年开始有一个 Perl 实现,长期以来被认为是 BLEU 的规范实现。使用脚本有很多麻烦(它在 Perl 中,要求数据采用相当模糊的 SGM 格式)。正因为如此(并且因为 BLEU 分数相当简单),许多独立的实现出现了,例如,在MultEvalNLTK中。它们更易于使用,但由于数据预处理中的一些细微差异不会产生相同的结果。SacreBLEU 可以进行相同的标记化并获得与原始 Perl 脚本相同的分数,但以明文形式读取数据,并且使用 Python,目前在机器翻译中使用最多。

于 2019-04-23T09:22:46.640 回答