为了评估序列生成模型,我使用的是 BLEU1:BLEU4。我将测试集分成两组,分别计算每组以及整个测试集的分数。令人惊讶的是,我从整个测试集得到的结果并不是我从每个集得到的结果的加权平均值。例如,考虑我在一组和其中的两个子集上获得的 BLEU4 分数:
set1, 866 个元素:0.0001529267908
set2, 1010 个元素:0.1625387989
<set1,set2>,1876 个元素:0.3063472152
我应该如何聚合两个子集的结果以获得整体结果?
注意:我知道 set1 中的所有元素都短于 4 个标记,这就是 BLEU4 几乎为零的原因。