问题标签 [common-crawl]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

66 问题

0 投票

1 回答

27 浏览

common-crawl - 通过 Common Crawl 获取第一次抓取 URL 的日期？

在 Common Crawl 中，可以多次获取相同的 URL。

例如，Reddit 博客文章可以在创建时被抓取，然后在添加后续评论时被抓取。

有没有办法找到一个给定的 URL 何时被 Common Crawl 首次抓取？

common-crawl

2021-03-05T13:08:56.590

0 投票

1 回答

45 浏览

amazon-web-services - 如何使用 HTTP 为 Common Crawl News Dataset 获取 WARC 文件列表？

我可以通过以下方式获得 Common Crawl 的列表：

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-09/wet.paths.gz

如何使用 Common Crawl News Dataset 做到这一点？

我尝试了不同的选项，但总是出错：

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS-2017-09/warc.paths.gz

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS/2017/09/warc.paths.gz

2021-03-20T18:36:06.567

0 投票

1 回答

257 浏览

python - Common Crawl data 按关键字搜索所有页面

我想知道是否可以使用 python 中的常用爬网 api 查找关键字并检索包含该关键字的页面。例如，如果我查找“堆栈溢出”，它将在 HTML 文件中找到关键字“堆栈溢出”的页面。我已经查看了 api，但我只能进行 URL 查找 - 而不是关键字。感谢您提前回复！

python api web-crawler keyword-search common-crawl

2021-03-26T04:26:02.020

0 投票

0 回答

30 浏览

scala - 从 CommonCrawl WET 格式读取特定记录

我正在尝试处理来自 CommonCrawl 的西班牙语文档。我得到了带有查询的文档“列表”：

因为我不需要 HTML，只需要文本，我打算使用 WET 文件。所以，我知道我必须更改文件名：

并下载 WET 文件。我org.jwat.warc.WarcReaderFactory在 Scala 中使用。我的问题是：

除了遍历所有记录并按段号匹配之外，是否有更好的方法从 WET 格式中提取文档？

scala common-crawl warc

2021-07-31T20:20:21.377

0 投票

1 回答

47 浏览

common-crawl - 哪个块代表 WARC-Block-Digest？

在下面的第 09 行有这一行：WARC-Block-Digest: sha1:CLODKYDXCHPVOJMJWHJVT3EJJDKI2RTQ

WARC的规格说The WARC-Block-Digest is an optional parameter indicating the algorithm name and calculated value of a digest applied to the full block of the record.

我一直在试图弄清楚full block of the record指的是什么。是11到16行吗？还是 12 到 16 号线？还是第 1 到 16 行（没有第 9 行）？我已经尝试散列这些可能性，但无法获得上面的 sha1（base 32）值。

common-crawl warc heritrix

user16656944

2021-08-13T08:08:49.900

0 投票

0 回答

18 浏览

curl - 使用 wget 从分页结果中获取所有结果

我正在尝试使用 Allen AI C4 搜索 API ( https://c4-search.apps.allenai.org/ ) 查询 C4 的所有结果。例如，我想在 C4 中下载 madrid 的所有结果。

尝试#1：wget https://c4-search.apps.allenai.org/?q=madrid

尝试#2：wget https://c4-search.apps.allenai.org/?q=madrid&f=i&s=10对于范围内的所有 i(0, 10)

尝试#3：wget https://c4-search.apps.allenai.org/?q=madrid&f=0&s=1000

然而，这些尝试似乎只返回前 10 个结果。

curl wget allennlp common-crawl

2021-11-01T21:47:19.587

1 2 3 4 5 6 7 8 9 10

问题标签 [common-crawl]

common-crawl - 通过 Common Crawl 获取第一次抓取 URL 的日期？

amazon-web-services - 如何使用 HTTP 为 Common Crawl News Dataset 获取 WARC 文件列表？

python - Common Crawl data 按关键字搜索所有页面

scala - 从 CommonCrawl WET 格式读取特定记录

common-crawl - 哪个块代表 WARC-Block-Digest？

curl - 使用 wget 从分页结果中获取所有结果

Reference