我正在相互评估几个开源搜索引擎。我想使用 TREC 数据集合(如 WT10G)或企业数据集合来执行此操作......
但似乎大多数数据集都非常昂贵(WT10G 为 500 英镑)。这就是为什么我想问是否有可以与 Lucene 等开源搜索引擎一起使用的免费 TREC 数据集合?如果没有,是否有其他与 TREC 质量相同但免费的数据收集?
我正在相互评估几个开源搜索引擎。我想使用 TREC 数据集合(如 WT10G)或企业数据集合来执行此操作......
但似乎大多数数据集都非常昂贵(WT10G 为 500 英镑)。这就是为什么我想问是否有可以与 Lucene 等开源搜索引擎一起使用的免费 TREC 数据集合?如果没有,是否有其他与 TREC 质量相同但免费的数据收集?
久负盛名的SMART系统带有一堆带有标记查询的测试集合,例如从 CACM 论文中编译的一个。这些集合不一定是免费的,因为允许出于任何目的分发(修改)版本,但它们是免费提供的。您可能需要做一些工作来破译文件格式,但它们是纯文本并记录在案。
MS Research 还发布了用于非商业用途的测试语料库,实际上是为了学习对实验进行排名,但可能对更一般的 IR 开发有用。