我正在 Web Data Commons 转储中尝试有趣的数据。在我的机器上 grep 需要一天的时间(并行)。是否有涵盖哪些网站的索引以及从这些网站中专门提取的能力?
问问题
288 次
1 回答
1
要从特定域获取所有页面——一种选择是查询公共爬网 api 站点:
列出来自特定域 wikipedia.org 的所有页面:
http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=*.wikipedia.org*/&showNumPages=true
这显示了来自该域的常见爬网有多少页块(请注意,您可以使用通配符,如本例所示)。
然后进入每个页面,让common crawl给你发送每个文件的json对象:
http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=en.wikipedia.org/*&page=0&output=json
然后您可以解析 json 并通过该字段获取每个 warc 文件:filename
此链接将为您提供帮助。
于 2015-08-11T21:53:17.507 回答