我正在研究衡量文本摘要质量的指标。为此,我找到了这个 SO answer,其中指出:
Bleu 测量精度:机器生成的摘要中的单词(和/或 n-gram)有多少出现在人类参考摘要中。
Rouge 测量召回:人类参考摘要中的单词(和/或 n-gram)在机器生成的摘要中出现了多少。
虽然在SE的这个答案中我发现了这个:
ROUGE-n recall=40% 表示参考摘要中 40% 的 n-gram 也出现在生成的摘要中。
ROUGE-n 精度=40% 意味着生成的摘要中 40% 的 n-gram 也出现在参考摘要中。
ROUGE-n F1-score=40% 更难解释,就像任何 F1-score 一样。
这是矛盾的。听起来Rouge-Precision等于BLEU而Rouge-Recall等于SO answer中的陈述。Rouge-Precision 是否与实现 BLEU 的 BLEU 相同?
论文中还提到:
很明显,ROUGE-N 是一个与召回相关的度量,因为等式的分母是参考摘要侧出现的 n-gram 数量的总和。一种密切相关的度量,BLEU,用于机器翻译的自动评估,是一种基于精度的度量。
我不明白这一点,因为(至少)胭脂返回精度和召回值。有人可以澄清一下吗?谢谢!