python - 如何使用 BLEU 将假设与参考相匹配？

Question

以下sys包含happy的是第二个参考的完全匹配，但为什么 bleu 分数仍然为零？

import sacrebleu
sys = ["happy"] 
refs = [["like achieve"], 
        ["happy"]] 

b3 = sacrebleu.corpus_bleu(sys, refs)
print("b3", b3.score)
print("b3", round(b3.score,2))

它打印

b3 0.0
b3 0.0

如果 BLEU 不是一个很好的指标，我会寻找一个指标，它可以通过任何参考对假设中的匹配或子字符串进行评分。我认为 BLEU 分数是出于同样的目的！

score 0 · Accepted Answer

BLEU 被定义为（修改后的）n-gram 精度的几何平均值，最高可达 4-gram（乘以简洁惩罚）。因此，如果整个测试集中没有匹配的 4-gram（没有 4-tuple of words），则 BLEU 定义为 0。BLEU 设计用于对包含数百个句子的测试集进行评分，这种情况不太可能发生。对于单个句子的评分，您可以使用使用某种平滑的句子级版本的 BLEU，但结果仍然不理想。您还可以使用基于字符的度量，例如 chrF ( sacrebleu -m chrf)。

您还可以传递use_effective_order=True给 corpus_bleu，以便只计算匹配的 n-gram 订单而不是 4 个 n-gram。但是，在这种情况下，该指标并不完全是人们所指的 BLEU。

python - 如何使用 BLEU 将假设与参考相匹配？

1 回答 1

Related

Reference