nlp - 如何评估使用 Rouge 指标的黄金摘要生成的自动摘要？

Question

我正在开发一个自动摘要系统，我想用我的黄金摘要评估我的输出摘要。对于每种情况，我有多个不同长度的摘要。所以我在这里有点困惑。我的问题是我应该如何用这些黄金总结来评估我的总结。我应该用每个黄金总结评估我的，然后平均结果还是假设黄金总结的联合作为黄金总结，然后用它评估我的？

先感谢您

score 0 · Accepted Answer

ROUGE 度量将您的摘要与所有参考摘要进行比较。

例如，ROUGE-N 是根据您的摘要和每个参考摘要之间的相似 n-gram 计数的总和除以所有参考摘要中出现的 n-gram 总数来计算的。

这篇关于 ROUGE 的论文将对您有所帮助。

1 回答 1