1

出于研究目的,我想要一大组(~100K)网页,尽管我只对它们的文本感兴趣。我计划将它们用于 gensim LDA 主题模型。CommonCrawler 似乎是一个不错的起点,但我不知道该怎么做。有人可以指出如何下载 100K 文本文件或如何访问它们(如果它比下载它们更容易)?

4

1 回答 1

3

似乎可以只下载部分数据集(您可以选择您想要的月份),并且您可以只下载文本(称为 WET 文件)。例如,您可以从以下网址下载 2014 年 8 月的抓取数据: http: //blog.commoncrawl.org/2014/09/august-2014-crawl-data-available/,有关文件格式的说明可以在此处找到:http ://blog.commoncrawl.org/2014/04/navigating-the-warc-file-format/

于 2014-12-17T21:42:53.563 回答