full-text-search - 搜索和检索在线文档

Question

我需要用 Java 开发一个应用程序，该应用程序能够通过仅考虑一些特定的过滤条件（例如，包含的文本、域等）来查找 Web 上可用的文档（HTML、.doc、.pdf 等），然后全部下载。

最好的方法是什么？我应该使用已经提供这些功能的此类库（例如 Guava？）或工具吗？

我知道有很多库（Apache Solr、Apache Nutch 等），但我不确定它们能否完成我的所有任务。

score 0 · Accepted Answer

Apache Nutch 应该可以帮助您了解我所理解的内容。这和allenday 的帖子应该可以帮助您处理 Java 代码。一些关于 nutch 的阅读肯定会有所帮助。

1 回答 1