因为我想测试一些inverted index
压缩算法,所以我需要一些标准数据集,比如我上面提到的那些。
这些数据集可以免费下载吗?
据我所知,这些数据集由格拉斯哥大学分发,并且与大多数其他TREC
测试数据集一样,不是免费的。
因为我想测试一些inverted index
压缩算法,所以我需要一些标准数据集,比如我上面提到的那些。
这些数据集可以免费下载吗?
据我所知,这些数据集由格拉斯哥大学分发,并且与大多数其他TREC
测试数据集一样,不是免费的。
看看这个。
向下滚动到Peer-to-Peer Testbed Definitions
。但我不确定!
注意:这是对 Majid 回答的评论。我把它作为答案,因为它很长。
从这些数据集的名称可以明显看出,大小WT2g
为 2 GB,大小WT10g
为 10 GB。但是您[Majid] 向我介绍的数据集非常小。起初,我认为这个数据集是主数据集的一个子集。但是在我下载它并看到它包含之后,我发现它只包含WT10g
从它们爬取的网站的 URL。此外,对于每个 URL,它都包含从中爬取的页面数。(我的意思是从每个 URL 爬取的页面数,而不是页面本身)
完全似乎我无法免费找到这些数据集,但我认为可以编写一个简单的爬虫并使用您 [Majid] 引入的数据集中存在的 URL 作为爬虫种子。我认为将使用此方法创建的集合将类似于主集合。