问题标签 [warc]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

54 问题

0 投票

0 回答

84 浏览

wget - 使用 --mirror 和 --input-file 使用 wget 创建 warc

我有很多网站必须保存在warc.

一个简单的方法是：

对于每个网站。

但是我有一个单页列表，我需要完全确定它已经被访问过。

例如：

必须保存，但不确定开始爬行的蜘蛛网是否https://example.com可以找到此链接。

所以我想urls.txt用这个内容写文件：

并做：

但是example.warc.gz更大得多，因为每个页面都被访问了几次。我认为wget从每个链接开始一个新的镜像，所以这就像保存网站 4 次。

如何warc使用--input-file和避免重复进行镜像？

wget warc

2021-06-17T08:33:54.583

0 投票

1 回答

214 浏览

archive - 如何解压warc.zst 文件？

我正在尝试解压缩从此处下载的 WARC ZST 文件：https ://archive.org/details/archiveteam_yahooanswers_20210422220546_c4fac540

我尝试了该命令zstd -d yahooanswers_20210422220546_c4fac540.1619026173.megawarc.warc.zst，但出现此错误： 73.megawarc.warc.zst : 0 MB... 73.megawarc.warc.zst : Decoding error (36) : Dictionary mismatch 如何找到所述字典或有任何替代方法吗？

2021-07-12T15:25:41.120

0 投票

0 回答

30 浏览

scala - 从 CommonCrawl WET 格式读取特定记录

我正在尝试处理来自 CommonCrawl 的西班牙语文档。我得到了带有查询的文档“列表”：

因为我不需要 HTML，只需要文本，我打算使用 WET 文件。所以，我知道我必须更改文件名：

并下载 WET 文件。我org.jwat.warc.WarcReaderFactory在 Scala 中使用。我的问题是：

除了遍历所有记录并按段号匹配之外，是否有更好的方法从 WET 格式中提取文档？

scala common-crawl warc

2021-07-31T20:20:21.377

0 投票

1 回答

47 浏览

common-crawl - 哪个块代表 WARC-Block-Digest？

在下面的第 09 行有这一行：WARC-Block-Digest: sha1:CLODKYDXCHPVOJMJWHJVT3EJJDKI2RTQ

WARC的规格说The WARC-Block-Digest is an optional parameter indicating the algorithm name and calculated value of a digest applied to the full block of the record.

我一直在试图弄清楚full block of the record指的是什么。是11到16行吗？还是 12 到 16 号线？还是第 1 到 16 行（没有第 9 行）？我已经尝试散列这些可能性，但无法获得上面的 sha1（base 32）值。

common-crawl warc heritrix

user16656944

2021-08-13T08:08:49.900

1 2 3 4 5 6 7 8 9 10

问题标签 [warc]

wget - 使用 --mirror 和 --input-file 使用 wget 创建 warc

archive - 如何解压warc.zst 文件？

scala - 从 CommonCrawl WET 格式读取特定记录

common-crawl - 哪个块代表 WARC-Block-Digest？

Reference