我正在使用由 Heritrix 爬网生成的 ARC 文件。当我在 Wayback Machine 中查看这些页面时,看起来大部分图形都是从我的本地计算机加载的,所以我假设这些图形存储在 ARC 文件中。那是对的吗?如果是这样,提取图像的最佳方法是什么?
问问题
176 次
1 回答
0
我找到了一个解决方案,一个名为 arc_extractor 的 perl 脚本: https ://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt
它提取 ARC 文件中的所有文件,根据接收文件的站点按文件夹分隔。是的,它确实包含图像文件。
脚本不太优雅......所以如果有人有任何其他建议,我有兴趣了解它们。
于 2010-06-21T15:41:42.270 回答