6

我需要浏览和下载常见抓取的公共数据集的子集。页面提到了数据的托管位置。
如何浏览并可能下载托管在 s3://aws-publicdatasets/common-crawl/crawl-002/ 上的常见爬网数据?

4

4 回答 4

15

作为更新,下载 Common Crawl 语料库一直是免费的,您可以使用 HTTP 代替 S3。S3 允许您使用匿名凭据来访问数据。

如果要通过 HTTP 下载,请获取文件位置之一,例如:

common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

然后将https://commoncrawl.s3.amazonaws.com/添加到其中,生成链接:

https://commoncrawl.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212- 248.ec2.internal.warc.gz

要获取所有此类文件的列表,请参阅最近爬网的 warc.paths.gz(或 WET 或 WAT 文件的等效文件),或使用 s3cmd 或类似工具使用匿名凭据列出文件。

此链接将起作用,并允许您在不通过 S3 的情况下下载数据。

于 2014-08-13T23:44:29.143 回答
4

对 Common Crawl 爬网的一般数据访问在以下位置进行了讨论: http: //blog.commoncrawl.org/2015/05/april-2015-crawl-archive-available/

我认为获取一些试验数据的有用方法是在存档上使用新索引:http: //index.commoncrawl.org/CC-MAIN-2015-18

例如,如果您查询“www.cwi.nl”,您会发现关于包含来自该域的文件的段的 JSON 结构。

{
 "urlkey": "nl,cwi)/", "timestamp": "20150505031358", 
 "status": "200", "url": "http://www.cwi.nl/", 
 "filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz", 
 "length": "5881", "mime": "text/html", "offset": "364108412", 
 "digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5"
}

为其添加 s3 信息前缀,您可以下载可用作示例数据的数据文件: https ://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-18 /segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz

玩得开心!

于 2015-06-16T09:59:00.700 回答
1

要访问 Common Crawl 数据,您需要对其运行 map-reduce 作业,并且由于语料库位于 S3 上,您可以通过使用 Amazon 的 EC2 服务运行 Hadoop 集群来实现。这涉及设置一个自定义 hadoop jar,该 jar 使用我们的自定义 InputFormat 类从我们的 S3 存储桶中的各个 ARC 文件中提取数据。

资源: http ://commoncrawl.org/the-data/

入门:http ://commoncrawl.org/the-data/get-started/

于 2013-05-20T15:33:54.153 回答
0

其他答案有一些很好的信息 url,但是对于访问实际数据,如果你只想要它的一小部分,这个客户端代码非常适合查看索引和下载内容:

https://github.com/cocrawler/cdx_toolkit

于 2018-10-12T20:25:15.737 回答