我有兴趣下载一堆网页以供以后分析。我想做两件事:
- 将页面和相关资源(图像、与文章相关的多个页面等)下载到 WARC 文件。
- 将所有链接更改为指向现在的本地文件。
我想在 Python 中做到这一点。
有没有什么好的图书馆可以做到这一点?Scrapy 似乎旨在抓取网站,而不是单个页面,我不确定如何生成 WARC 文件。如果没有更多的 python 原生的东西,调用 wget 是一个可行的解决方案。Heritrix 完全是矫枉过正,而不是 Python 解决方案。如果 wpull 有一个有据可查的 python 库,它会是理想的,但它似乎主要是一个应用程序。
还有其他想法吗?