我打算做一个利基搜索引擎。我使用 apache-nutch-1.6 作为爬虫,使用 apache-solr-3.6.2 作为搜索器。我必须说,网络上关于这些技术的更新信息非常少。
我遵循本教程http://wiki.apache.org/nutch/NutchTutorial并在我的 ubuntu 系统上成功安装了 apache 和 solr。我还成功地将种子 url 注入 webdb 并执行爬网。
使用 solr 接口http://localhost:8983/solr/admin
,我也可以查询爬取的结果。但这是我收到的输出。.
我在这里遗漏了什么吗,早期的 apache-nutch-0.7 发生了一场战争,它产生了这样一个清晰的 html 输出。. 我如何做到这一点......或者如果有人可以指出我最新的教程或指南,非常感谢。