我正在寻找一个用 Java 编写的开源网络爬虫,除了通常的网络爬虫功能,如深度/多线程/等。具有自定义处理每种文件类型的能力。
更准确地说,当一个文件被下载(或即将被下载)时,我想处理文件的保存操作。HTML 文件应保存在不同的存储库中,图像应保存在其他位置,其他文件应保存在其他位置。此外,存储库可能不仅仅是一个简单的文件系统。
我听说过很多关于Apache Nutch的信息。它有能力做到这一点吗?我希望尽可能简单快速地实现这一目标。
我正在寻找一个用 Java 编写的开源网络爬虫,除了通常的网络爬虫功能,如深度/多线程/等。具有自定义处理每种文件类型的能力。
更准确地说,当一个文件被下载(或即将被下载)时,我想处理文件的保存操作。HTML 文件应保存在不同的存储库中,图像应保存在其他位置,其他文件应保存在其他位置。此外,存储库可能不仅仅是一个简单的文件系统。
我听说过很多关于Apache Nutch的信息。它有能力做到这一点吗?我希望尽可能简单快速地实现这一目标。