1

我正在寻找一个用 Java 编写的开源网络爬虫,除了通常的网络爬虫功能,如深度/多线程/等。具有自定义处理每种文件类型的能力。

更准确地说,当一个文件被下载(或即将被下载)时,我想处理文件的保存操作。HTML 文件应保存在不同的存储库中,图像应保存在其他位置,其他文件应保存在其他位置。此外,存储库可能不仅仅是一个简单的文件系统。

我听说过很多关于Apache Nutch的信息。它有能力做到这一点吗?我希望尽可能简单快速地实现这一目标。

4

1 回答 1

1

基于您希望对爬虫的工作方式进行大量控制的假设,我会推荐crawler4j。有很多例子,所以你可以快速了解事情是如何工作的。

您可以根据内容类型轻松处理资源(查看Page.java类 - 它是包含有关已获取资源的信息的对象类)。

存储库没有限制。你可以使用任何你想要的东西。

于 2012-12-22T19:27:03.220 回答