2

我使用 lucene 基准测试来测量原始代码中的精度和召回率,有两个文件,主题文件:

QualityQuery qqs[] = qReader.readQueries( new BufferedReader(new FileReader(topicsFile)));

和 qrels 文件:

Judge judge = new TrecJudge(new BufferedReader(new FileReader(qrelsFile)));

据我了解,这两个文件是文本文件。但我不知道我需要用什么来填充这两个文件,它们是我手动编写的,还是有一些代码可以用所需的信息填充它们。

我需要有关 lucene 程序中这种精度和召回率测量的任何帮助

谢谢

4

1 回答 1

1

TrecJudge 的 Javadocs http://lucene.apache.org/core/old_versioned_docs/versions/3_4_0/api/all/org/apache/lucene/benchmark/quality/trec/TrecJudge.html

给出:

根据Trec格式判断给定文档是否与给定质量查询相关。

TREC (http://trec.nist.gov/) 是一系列提供信息检索竞赛的会议。

我怀疑您可能必须自己做一些侦探工作,但这对我很感兴趣,我可能会添加更多信息。

一般来说,基准测试的策略是这样的:

  • 提供与您感兴趣的领域相关的语料库
  • 注释它的一部分以指示应该召回的内容。这可能是两组 - 一组有信息(正面),另一组没有(负面)
  • 将其分为两部分 - 一部分用于训练您的应用程序,另一部分用于测试它(有更复杂的方法需要更多)
  • 在您的测试集上运行评估软件。

我怀疑您将需要以 TREC 格式提供您的格式。

于 2012-05-06T12:52:36.403 回答