-1

我正在 Web Data Commons 转储中尝试有趣的数据。在我的机器上 grep 需要一天的时间(并行)。是否有涵盖哪些网站的索引以及从这些网站中专门提取的能力?

4

1 回答 1

1

要从特定域获取所有页面——一种选择是查询公共爬网 api 站点:

http://index.commoncrawl.org

列出来自特定域 wikipedia.org 的所有页面:

http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=*.wikipedia.org*/&showNumPages=true

这显示了来自该域的常见爬网有多少页块(请注意,您可以使用通配符,如本例所示)。

然后进入每个页面,让common crawl给你发送每个文件的json对象:

http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=en.wikipedia.org/*&page=0&output=json

然后您可以解析 json 并通过该字段获取每个 warc 文件:filename

链接将为您提供帮助。

于 2015-08-11T21:53:17.507 回答