我正在开发一个自动摘要系统,我想用我的黄金摘要评估我的输出摘要。对于每种情况,我有多个不同长度的摘要。所以我在这里有点困惑。我的问题是我应该如何用这些黄金总结来评估我的总结。我应该用每个黄金总结评估我的,然后平均结果还是假设黄金总结的联合作为黄金总结,然后用它评估我的?
先感谢您
我正在开发一个自动摘要系统,我想用我的黄金摘要评估我的输出摘要。对于每种情况,我有多个不同长度的摘要。所以我在这里有点困惑。我的问题是我应该如何用这些黄金总结来评估我的总结。我应该用每个黄金总结评估我的,然后平均结果还是假设黄金总结的联合作为黄金总结,然后用它评估我的?
先感谢您
ROUGE 度量将您的摘要与所有参考摘要进行比较。
例如,ROUGE-N 是根据您的摘要和每个参考摘要之间的相似 n-gram 计数的总和除以所有参考摘要中出现的 n-gram 总数来计算的。
这篇关于 ROUGE 的论文将对您有所帮助。