我很好奇是否有人熟悉使用NLTK 的 BLEU 分数计算和SacreBLEU 库之间的区别。
特别是,我使用了两个库的句子 BLEU 分数,在整个数据集上取平均值。两者给出不同的结果:
>>> from nltk.translate import bleu_score
>>> from sacrebleu import sentence_bleu
>>> print(len(predictions))
256
>>> print(len(targets))
256
>>> prediction = "this is the first: the world's the world's the world's the \
... world's the world's the world's the world's the world's the world's the world \
... of the world of the world'"
...
>>> target = "al gore: so the alliance for climate change has launched two campaigns."
>>> print(bleu_score.sentence_bleu([target], prediction))
0.05422283394039736
>>> print(sentence_bleu(prediction, [target]).score)
0.0
>>> print(sacrebleu.corpus_bleu(predictions, [targets]).score)
0.678758518214081
>>> print(bleu_score.corpus_bleu([targets], [predictions]))
0
正如您所看到的,有很多令人困惑的不一致之处正在发生。我的 BLEU 分数不可能是 67.8%,但也不应该是 0%(有很多重叠的 n-gram,比如“the”)。
如果有人能对此有所了解,我将不胜感激。谢谢。