问题标签 [warc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
wget - 使用 --mirror 和 --input-file 使用 wget 创建 warc
我有很多网站必须保存在warc
.
一个简单的方法是:
对于每个网站。
但是我有一个单页列表,我需要完全确定它已经被访问过。
例如:
必须保存,但不确定开始爬行的蜘蛛网是否https://example.com
可以找到此链接。
所以我想urls.txt
用这个内容写文件:
并做:
但是example.warc.gz
更大得多,因为每个页面都被访问了几次。我认为wget
从每个链接开始一个新的镜像,所以这就像保存网站 4 次。
如何warc
使用--input-file
和避免重复进行镜像?
archive - 如何解压warc.zst 文件?
我正在尝试解压缩从此处下载的 WARC ZST 文件:https ://archive.org/details/archiveteam_yahooanswers_20210422220546_c4fac540
我尝试了该命令zstd -d yahooanswers_20210422220546_c4fac540.1619026173.megawarc.warc.zst
,但出现此错误:
73.megawarc.warc.zst : 0 MB... 73.megawarc.warc.zst : Decoding error (36) : Dictionary mismatch
如何找到所述字典或有任何替代方法吗?
scala - 从 CommonCrawl WET 格式读取特定记录
我正在尝试处理来自 CommonCrawl 的西班牙语文档。我得到了带有查询的文档“列表”:
因为我不需要 HTML,只需要文本,我打算使用 WET 文件。所以,我知道我必须更改文件名:
并下载 WET 文件。我org.jwat.warc.WarcReaderFactory
在 Scala 中使用。我的问题是:
除了遍历所有记录并按段号匹配之外,是否有更好的方法从 WET 格式中提取文档?
common-crawl - 哪个块代表 WARC-Block-Digest?
在下面的第 09 行有这一行:WARC-Block-Digest: sha1:CLODKYDXCHPVOJMJWHJVT3EJJDKI2RTQ
WARC的规格说The WARC-Block-Digest is an optional parameter indicating the algorithm name and calculated value of a digest applied to the full block of the record.
我一直在试图弄清楚full block of the record
指的是什么。是11到16行吗?还是 12 到 16 号线?还是第 1 到 16 行(没有第 9 行)?我已经尝试散列这些可能性,但无法获得上面的 sha1(base 32)值。