1

为了评估序列生成模型,我使用的是 BLEU1:BLEU4。我将测试集分成两组,分别计算每组以及整个测试集的分数。令人惊讶的是,我从整个测试集得到的结果并不是我从每个集得到的结果的加权平均值。例如,考虑我在一组和其中的两个子集上获得的 BLEU4 分数:

set1, 866 个元素:0.0001529267908

set2, 1010 个元素:0.1625387989

<set1,set2>,1876 个元素:0.3063472152

我应该如何聚合两个子集的结果以获得整体结果?

注意:我知道 set1 中的所有元素都短于 4 个标记,这就是 BLEU4 几乎为零的原因。

4

1 回答 1

1

BLEU 分数根据定义是非线性的。正如您在Papineni 等人的原始论文中看到的那样。

在此处输入图像描述

它是两项的乘积:简洁惩罚 (BP) 和n- gram 精度的调和平均值。简洁惩罚和调和平均都不是关于平均的线性运算。

关于你应该报告的内容:由于两个测试集看起来根本不同,最好的选择是报告两个单独的数字。

我不知道您的任务是什么,但鉴于所需的输出非常短,BLEU 可能不是评估的最佳选择。您可能会考虑基于编辑(例如,TER)甚至简单的准确性可能会做得很好。

于 2020-09-02T08:19:56.340 回答