0

我需要用 Java 开发一个应用程序,该应用程序能够通过仅考虑一些特定的过滤条件(例如,包含的文本、域等)来查找 Web 上可用的文档(HTML、.doc、.pdf 等),然后全部下载。

最好的方法是什么?我应该使用已经提供这些功能的此类库(例如 Guava?)或工具吗?

我知道有很多库(Apache Solr、Apache Nutch 等),但我不确定它们能否完成我的所有任务。

4

1 回答 1

0

Apache Nutch 应该可以帮助您了解我所理解的内容。 allenday 的帖子应该可以帮助您处理 Java 代码。一些关于 nutch 的阅读肯定会有所帮助。

于 2013-04-06T22:02:55.060 回答