0

因为我想测试一些inverted index压缩算法,所以我需要一些标准数据集,比如我上面提到的那些。

这些数据集可以免费下载吗?

据我所知,这些数据集由格拉斯哥大学分发,并且与大多数其他TREC测试数据集一样,不是免费的。

4

2 回答 2

1

看看这个

向下滚动到Peer-to-Peer Testbed Definitions。但我不确定!

于 2012-08-28T19:28:58.807 回答
0

注意:这是对 Majid 回答的评论。我把它作为答案,因为它很长。

从这些数据集的名称可以明显看出,大小WT2g为 2 GB,大小WT10g为 10 GB。但是您[Majid] 向我介绍的数据集非常小。起初,我认为这个数据集是主数据集的一个子集。但是在我下载它并看到它包含之后,我发现它只包含WT10g从它们爬取的网站的 URL。此外,对于每个 URL,它都包含从中爬取的页面数。(我的意思是从每个 URL 爬取的页面数,而不是页面本身)
完全似乎我无法免费找到这些数据集,但我认为可以编写一个简单的爬虫并使用您 [Majid] 引入的数据集中存在的 URL 作为爬虫种子。我认为将使用此方法创建的集合将类似于主集合。

于 2012-08-31T17:45:34.750 回答