python - 如何计算多句摘要的 ROUGE？

翻译自：https://stackoverflow.com/questions/68749214 2021-08-11T21:41:35.047

87 次

我正在尝试在 TAC2010 数据集上运行几个汇总指标（ROUGE、METEOR、BLEU、CIDEr）。我使用了一个名为 nlg-eval ( https://github.com/Maluuba/nlg-eval ) 的 python 包来执行此操作。我尝试了 github 上列出的两个 API：functional API: for the entire corpus

from nlgeval import compute_metrics
metrics_dict = compute_metrics(hypothesis='examples/hyp.txt',
                               references=['examples/ref1.txt', 'examples/ref2.txt'])

功能 API：仅用于一个句子（我将所有句子堆叠成一个句子用于假设摘要及其每四个参考）

from nlgeval import compute_individual_metrics
metrics_dict = compute_individual_metrics(references, hypothesis)

但是，我从 nlg-eval 获得的 ROUGE-L 分数与数据集报告的官方 ROUGE-L 分数不一致。

所以我的问题是

多句摘要计算ROUGE的正确方法是什么
如何在 TAC2010 上进行 nlg-eval 工作

python - 如何计算多句摘要的 ROUGE？

0 回答 0

Related

Reference