我正在尝试在 TAC2010 数据集上运行几个汇总指标(ROUGE、METEOR、BLEU、CIDEr)。我使用了一个名为 nlg-eval ( https://github.com/Maluuba/nlg-eval ) 的 python 包来执行此操作。我尝试了 github 上列出的两个 API:functional API: for the entire corpus
from nlgeval import compute_metrics
metrics_dict = compute_metrics(hypothesis='examples/hyp.txt',
references=['examples/ref1.txt', 'examples/ref2.txt'])
功能 API:仅用于一个句子(我将所有句子堆叠成一个句子用于假设摘要及其每四个参考)
from nlgeval import compute_individual_metrics
metrics_dict = compute_individual_metrics(references, hypothesis)
但是,我从 nlg-eval 获得的 ROUGE-L 分数与数据集报告的官方 ROUGE-L 分数不一致。
所以我的问题是
- 多句摘要计算ROUGE的正确方法是什么
- 如何在 TAC2010 上进行 nlg-eval 工作