问题标签 [common-crawl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
27 浏览

common-crawl - 通过 Common Crawl 获取第一次抓取 URL 的日期?

在 Common Crawl 中,可以多次获取相同的 URL。

例如,Reddit 博客文章可以在创建时被抓取,然后在添加后续评论时被抓取。

有没有办法找到一个给定的 URL 何时被 Common Crawl 首次抓取?

0 投票
1 回答
45 浏览

amazon-web-services - 如何使用 HTTP 为 Common Crawl News Dataset 获取 WARC 文件列表?

我可以通过以下方式获得 Common Crawl 的列表:

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-09/wet.paths.gz

如何使用 Common Crawl News Dataset 做到这一点?

我尝试了不同的选项,但总是出错:

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS-2017-09/warc.paths.gz

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS/2017/09/warc.paths.gz

0 投票
1 回答
257 浏览

python - Common Crawl data 按关键字搜索所有页面

我想知道是否可以使用 python 中的常用爬网 api 查找关键字并检索包含该关键字的页面。例如,如果我查找“堆栈溢出”,它将在 HTML 文件中找到关键字“堆栈溢出”的页面。我已经查看了 api,但我只能进行 URL 查找 - 而不是关键字。感谢您提前回复!

0 投票
0 回答
30 浏览

scala - 从 CommonCrawl WET 格式读取特定记录

我正在尝试处理来自 CommonCrawl 的西班牙语文档。我得到了带有查询的文档“列表”:

因为我不需要 HTML,只需要文本,我打算使用 WET 文件。所以,我知道我必须更改文件名:

并下载 WET 文件。我org.jwat.warc.WarcReaderFactory在 Scala 中使用。我的问题是:

除了遍历所有记录并按段号匹配之外,是否有更好的方法从 WET 格式中提取文档?

0 投票
1 回答
47 浏览

common-crawl - 哪个块代表 WARC-Block-Digest?

在下面的第 09 行有这一行:WARC-Block-Digest: sha1:CLODKYDXCHPVOJMJWHJVT3EJJDKI2RTQ

WARC的规格说The WARC-Block-Digest is an optional parameter indicating the algorithm name and calculated value of a digest applied to the full block of the record.

我一直在试图弄清楚full block of the record指的是什么。是11到16行吗?还是 12 到 16 号线?还是第 1 到 16 行(没有第 9 行)?我已经尝试散列这些可能性,但无法获得上面的 sha1(base 32)值。

0 投票
0 回答
18 浏览

curl - 使用 wget 从分页结果中获取所有结果

我正在尝试使用 Allen AI C4 搜索 API ( https://c4-search.apps.allenai.org/ ) 查询 C4 的所有结果。例如,我想在 C4 中下载 madrid 的所有结果。

尝试#1:wget https://c4-search.apps.allenai.org/?q=madrid

尝试#2:wget https://c4-search.apps.allenai.org/?q=madrid&f=i&s=10对于范围内的所有 i(0, 10)

尝试#3:wget https://c4-search.apps.allenai.org/?q=madrid&f=0&s=1000

然而,这些尝试似乎只返回前 10 个结果。