使用 Heritrix 3.2.x,我抓取了一个网站,现在我想从创建的 warc 文件中读取 HTML 内容。任何人都可以帮忙吗?我尝试使用 python warc 工具和基于 java 的 warc-tools.jar。
问问题
407 次
2 回答
0
要了解什么是 warc 文件,只需使用某种文本编辑器。对于图形视图,您需要webarchiveplayer或 pywb或openwayback 之类的工具。
于 2016-08-26T15:28:05.827 回答
0
您是否尝试过使用JWAT或使用JWAT 工具命令行对阅读器进行编程。
jwattools.cmd extract path.to.warc(.gz)
于 2017-01-05T21:29:11.570 回答