2

我打算做一个利基搜索引擎。我使用 apache-nutch-1.6 作为爬虫,使用 apache-solr-3.6.2 作为搜索器。我必须说,网络上关于这些技术的更新信息非常少。

我遵循本教程http://wiki.apache.org/nutch/NutchTutorial并在我的 ubuntu 系统上成功安装了 apache 和 solr。我还成功地将种子 url 注入 webdb 并执行爬网。

使用 solr 接口http://localhost:8983/solr/admin,我也可以查询爬取的结果。但这是我收到的输出。在此处输入图像描述.

我在这里遗漏了什么吗,早期的 apache-nutch-0.7 发生了一场战争,它产生了这样一个清晰的 html 输出。在此处输入图像描述. 我如何做到这一点......或者如果有人可以指出我最新的教程或指南,非常感谢。

4

2 回答 2

2

有几件事:

  • 如果您刚刚开始,请不要使用 Solr 3.6,直接使用最新的 4.1+。许多事情发生了变化,并添加了许多新功能。
  • 您似乎在说您会将 Solr + UI 直接暴露给一般网络 - 这是一个非常糟糕的主意,因为 Solr 完全不安全并且允许基于网络的删除查询。你真的想要一个中间的业务层。
  • 在 Solr 4.1 中,有一个漂亮的 Admin UI,还有一个 /browse 页面,显示如何使用 Velocity 来处理 Solr 支持的页面。或者查看Project Blacklight之类的示例,了解如何通过 Solr 获取 UI。
于 2013-02-06T12:34:55.703 回答
0

我发现下面的链接 http://cmusphinx.sourceforge.net/2012/06/building-a-java-application-with-apache-nutch-and-solr/ 回答了我的查询。

我同意阅读上述链接上的内容后,我对自己感到非常生气。Solr 包提供了查询 solr 所需的所有对象。

事实上,必备的jar包就是solr-solrj-3.4.0.jar、commons-httpclient-3.1.jar和slf4j-api-1.6.4.jar。

任何人都可以使用这些对象构建 Java 搜索引擎来查询数据库并拥有精美的 UI。

再次感谢。

于 2013-02-09T07:06:48.967 回答