common-crawl - 从 Web Data Commons 获取给定网站数据的方法？

Question

我正在 Web Data Commons 转储中尝试有趣的数据。在我的机器上 grep 需要一天的时间（并行）。是否有涵盖哪些网站的索引以及从这些网站中专门提取的能力？

score 1 · Accepted Answer

要从特定域获取所有页面——一种选择是查询公共爬网 api 站点：

列出来自特定域 wikipedia.org 的所有页面：

http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=*.wikipedia.org*/&showNumPages=true

这显示了来自该域的常见爬网有多少页块（请注意，您可以使用通配符，如本例所示）。

然后进入每个页面，让common crawl给你发送每个文件的json对象：

http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=en.wikipedia.org/*&page=0&output=json

然后您可以解析 json 并通过该字段获取每个 warc 文件：filename

此链接将为您提供帮助。

1 回答 1