heritrix - Heritrix 3.2.x，如何从 warc 文件中读取内容？

Question

使用 Heritrix 3.2.x，我抓取了一个网站，现在我想从创建的 warc 文件中读取 HTML 内容。任何人都可以帮忙吗？我尝试使用 python warc 工具和基于 java 的 warc-tools.jar。

score 0 · Accepted Answer

要了解什么是 warc 文件，只需使用某种文本编辑器。对于图形视图，您需要webarchiveplayer或 pywb或openwayback 之类的工具。

score 0 · Accepted Answer

您是否尝试过使用JWAT或使用JWAT 工具命令行对阅读器进行编程。

jwattools.cmd extract path.to.warc(.gz)

2 回答 2