问题标签 [common-crawl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
common-crawl - 通过 Common Crawl 获取第一次抓取 URL 的日期?
在 Common Crawl 中,可以多次获取相同的 URL。
例如,Reddit 博客文章可以在创建时被抓取,然后在添加后续评论时被抓取。
有没有办法找到一个给定的 URL 何时被 Common Crawl 首次抓取?
amazon-web-services - 如何使用 HTTP 为 Common Crawl News Dataset 获取 WARC 文件列表?
我可以通过以下方式获得 Common Crawl 的列表:
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-09/wet.paths.gz
如何使用 Common Crawl News Dataset 做到这一点?
我尝试了不同的选项,但总是出错:
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS-2017-09/warc.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS/2017/09/warc.paths.gz
python - Common Crawl data 按关键字搜索所有页面
我想知道是否可以使用 python 中的常用爬网 api 查找关键字并检索包含该关键字的页面。例如,如果我查找“堆栈溢出”,它将在 HTML 文件中找到关键字“堆栈溢出”的页面。我已经查看了 api,但我只能进行 URL 查找 - 而不是关键字。感谢您提前回复!
scala - 从 CommonCrawl WET 格式读取特定记录
我正在尝试处理来自 CommonCrawl 的西班牙语文档。我得到了带有查询的文档“列表”:
因为我不需要 HTML,只需要文本,我打算使用 WET 文件。所以,我知道我必须更改文件名:
并下载 WET 文件。我org.jwat.warc.WarcReaderFactory
在 Scala 中使用。我的问题是:
除了遍历所有记录并按段号匹配之外,是否有更好的方法从 WET 格式中提取文档?
common-crawl - 哪个块代表 WARC-Block-Digest?
在下面的第 09 行有这一行:WARC-Block-Digest: sha1:CLODKYDXCHPVOJMJWHJVT3EJJDKI2RTQ
WARC的规格说The WARC-Block-Digest is an optional parameter indicating the algorithm name and calculated value of a digest applied to the full block of the record.
我一直在试图弄清楚full block of the record
指的是什么。是11到16行吗?还是 12 到 16 号线?还是第 1 到 16 行(没有第 9 行)?我已经尝试散列这些可能性,但无法获得上面的 sha1(base 32)值。
curl - 使用 wget 从分页结果中获取所有结果
我正在尝试使用 Allen AI C4 搜索 API ( https://c4-search.apps.allenai.org/ ) 查询 C4 的所有结果。例如,我想在 C4 中下载 madrid 的所有结果。
尝试#1:wget https://c4-search.apps.allenai.org/?q=madrid
尝试#2:wget https://c4-search.apps.allenai.org/?q=madrid&f=i&s=10
对于范围内的所有 i(0, 10)
尝试#3:wget https://c4-search.apps.allenai.org/?q=madrid&f=0&s=1000
然而,这些尝试似乎只返回前 10 个结果。