以下sys
包含happy
的是第二个参考的完全匹配,但为什么 bleu 分数仍然为零?
import sacrebleu
sys = ["happy"]
refs = [["like achieve"],
["happy"]]
b3 = sacrebleu.corpus_bleu(sys, refs)
print("b3", b3.score)
print("b3", round(b3.score,2))
它打印
b3 0.0
b3 0.0
如果 BLEU 不是一个很好的指标,我会寻找一个指标,它可以通过任何参考对假设中的匹配或子字符串进行评分。我认为 BLEU 分数是出于同样的目的!