download - 如何下载 Amazon CommonCrawel 的子集（只需要文本（WET 文件？））

Question

出于研究目的，我想要一大组（~100K）网页，尽管我只对它们的文本感兴趣。我计划将它们用于 gensim LDA 主题模型。CommonCrawler 似乎是一个不错的起点，但我不知道该怎么做。有人可以指出如何下载 100K 文本文件或如何访问它们（如果它比下载它们更容易）？

score 3 · Accepted Answer

似乎可以只下载部分数据集（您可以选择您想要的月份），并且您可以只下载文本（称为 WET 文件）。例如，您可以从以下网址下载 2014 年 8 月的抓取数据： http: //blog.commoncrawl.org/2014/09/august-2014-crawl-data-available/，有关文件格式的说明可以在此处找到：http ://blog.commoncrawl.org/2014/04/navigating-the-warc-file-format/

1 回答 1