machine-learning - 有哪些良好且广泛使用的评估指标来测试提取文本摘要方法的准确性？

Question

我正在使用分类技术进行多文档提取文本摘要。我计算了 f-measure、recall、precision 和accuracy。我在这里评估此方法生成的摘要的理想指标是什么？

score 2 · Accepted Answer

ROUGE 计算各种指标的 Recall、Precision 和 F-measure：ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S。这是 ROUGE 的论文。

ROUGE-N 是匹配n-gram的数量除以 n-gram 的总数。

ROUGE-L 查看两个文本的最长公共子序列，一个子序列可以包含间隙，因此它1,3,5是的子序列1,2,3,4,5。

ROUGE-W 也使用最长的公共子序列作为分数，但对间隔较少的子序列赋予更高的权重。

ROUGE-S 使用skip-bigrams，skip-bigram 是2-gram，可以包含任意2 个单词，只要它们按句子顺序，即不必是连续的。

1 回答 1