0

使用 Heritrix 3.2.x,我抓取了一个网站,现在我想从创建的 warc 文件中读取 HTML 内容。任何人都可以帮忙吗?我尝试使用 python warc 工具和基于 java 的 warc-tools.jar。

4

2 回答 2

0

要了解什么是 warc 文件,只需使用某种文本编辑器。对于图形视图,您需要webarchiveplayerpywbopenwayback 之类的工具。

于 2016-08-26T15:28:05.827 回答
0

您是否尝试过使用JWAT或使用JWAT 工具命令行对阅读器进行编程。

jwattools.cmd extract path.to.warc(.gz)
于 2017-01-05T21:29:11.570 回答