一般来说:
Bleu 测量精度:机器生成的摘要中的单词(和/或 n-gram)有多少出现在人类参考摘要中。
Rouge 测量召回:人类参考摘要中的单词(和/或 n-gram)在机器生成的摘要中出现了多少。
自然地 - 这些结果是互补的,正如在精确率与召回率中经常出现的情况一样。如果系统结果中有很多单词出现在人工参考中,那么您将具有高 Bleu,如果您有很多来自人工参考的单词出现在系统结果中,您将具有高 Rouge。
在您的情况下,sys1 的 Rouge 似乎比 sys2 高,因为 sys1 中的结果始终比 sys2 中的结果出现更多来自人类参考的单词。但是,由于您的 Bleu 分数显示 sys1 的召回率低于 sys2,这表明您的 sys1 结果中没有太多单词出现在人类参考文献中,就 sys2 而言。
例如,如果您的 sys1 输出的结果包含参考中的单词(提高 Rouge),但也包含参考不包含的许多单词(降低 Bleu),则可能会发生这种情况。sys2 似乎给出了结果,其中输出的大多数单词确实出现在人类参考文献中(提高了蓝色),但也从它的结果中遗漏了许多确实出现在人类参考文献中的单词。
顺便说一句,有一种叫做简洁惩罚的东西,它非常重要,并且已经被添加到标准的 Bleu 实现中。它会惩罚比参考的一般长度短的系统结果(在此处阅读更多信息)。这补充了 n-gram 度量行为,实际上惩罚比参考结果更长,因为分母增长得越长,系统结果越长。
你也可以为 Rouge 实现类似的东西,但这次惩罚比一般参考长度长的系统结果,否则会使它们人为地获得更高的 Rouge 分数(因为结果越长,你击中一些出现在参考文献中的单词)。在 Rouge 中,我们除以人类参考的长度,因此我们需要对更长的系统结果进行额外的惩罚,这可能会人为地提高他们的 Rouge 分数。
最后,您可以使用F1 度量来使指标协同工作:F1 = 2 * (Bleu * Rouge) / (Bleu + Rouge)