这在我读过的论文中并不太清楚。当一个模型在双语语料库上进行训练时,例如通过字节对编码,计算子词输出或重新加入子词后完整词的 BLEU 分数是否标准?
问问题
162 次
1 回答
1
BLEU 分数总是在完整的标记上计算,否则,BLEU 分数将无法在具有不同分词的模型之间进行比较。即使是标记化的微小差异也会对最终得分产生很大影响。这在最近的一篇论文中得到了很好的解释,该论文介绍了SacreBLEU,它现在被用作在学术论文中报告 BLEU 分数的标准工具。
当在 BPE 子词而不是词上计算 BLEU 时,分数会人为地变高。即使翻译质量很低,模型通常也不会出现正确的单个单词的问题。通常情况下,它只会包含在 unigram 精度中,但是随着单词被分成多个子词,它也会增加 bigram、trigram 甚至 4-gram 的精度。
于 2020-01-09T09:24:22.403 回答