web-crawler - 从抓取的站点（ARC 文件）中提取图形

Question

我正在使用由 Heritrix 爬网生成的 ARC 文件。当我在 Wayback Machine 中查看这些页面时，看起来大部分图形都是从我的本地计算机加载的，所以我假设这些图形存储在 ARC 文件中。那是对的吗？如果是这样，提取图像的最佳方法是什么？

score 0 · Accepted Answer

我找到了一个解决方案，一个名为 arc_extractor 的 perl 脚本： https ://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt

它提取 ARC 文件中的所有文件，根据接收文件的站点按文件夹分隔。是的，它确实包含图像文件。

脚本不太优雅......所以如果有人有任何其他建议，我有兴趣了解它们。

1 回答 1