java - 具有自定义文件保存能力的 Java 爬虫

Question

我正在寻找一个用 Java 编写的开源网络爬虫，除了通常的网络爬虫功能，如深度/多线程/等。具有自定义处理每种文件类型的能力。

更准确地说，当一个文件被下载（或即将被下载）时，我想处理文件的保存操作。HTML 文件应保存在不同的存储库中，图像应保存在其他位置，其他文件应保存在其他位置。此外，存储库可能不仅仅是一个简单的文件系统。

我听说过很多关于Apache Nutch的信息。它有能力做到这一点吗？我希望尽可能简单快速地实现这一目标。

score 1 · Accepted Answer

基于您希望对爬虫的工作方式进行大量控制的假设，我会推荐crawler4j。有很多例子，所以你可以快速了解事情是如何工作的。

您可以根据内容类型轻松处理资源（查看Page.java类 - 它是包含有关已获取资源的信息的对象类）。

存储库没有限制。你可以使用任何你想要的东西。

1 回答 1