我需要用 Java 开发一个应用程序,该应用程序能够通过仅考虑一些特定的过滤条件(例如,包含的文本、域等)来查找 Web 上可用的文档(HTML、.doc、.pdf 等),然后全部下载。
最好的方法是什么?我应该使用已经提供这些功能的此类库(例如 Guava?)或工具吗?
我知道有很多库(Apache Solr、Apache Nutch 等),但我不确定它们能否完成我的所有任务。
我需要用 Java 开发一个应用程序,该应用程序能够通过仅考虑一些特定的过滤条件(例如,包含的文本、域等)来查找 Web 上可用的文档(HTML、.doc、.pdf 等),然后全部下载。
最好的方法是什么?我应该使用已经提供这些功能的此类库(例如 Guava?)或工具吗?
我知道有很多库(Apache Solr、Apache Nutch 等),但我不确定它们能否完成我的所有任务。
Apache Nutch 应该可以帮助您了解我所理解的内容。 这和allenday 的帖子应该可以帮助您处理 Java 代码。一些关于 nutch 的阅读肯定会有所帮助。