0

我正在尝试为我的最后一年项目构建一个搜索引擎。在过去的两个月里,我对这个主题做了很多研究。我发现我需要一个爬虫来爬取互联网、一个解析器和一个索引器。

我正在尝试使用 Nutch 作为爬虫和 solr 来索引 Nutch 爬取的数据。但我被困在他们两个的安装部分。我正在尝试借助互联网上的教程在我的系统中安装 Nutch 和 solr,但对我没有任何帮助。

我需要某种安装指南或链接,我可以在其中学习如何安装和集成 Nutch 和 solr

接下来我被解析器困住了。我不知道这个阶段。我需要有关如何在索引之前解析数据的帮助。

我不想建立谷歌或其他东西。我所需要的只是来自某些网站的某些要搜索的项目。

我有 Java 经验,我可以轻松地使用它,但我不像你们这样专业,请告诉我我是否朝着正确的方向前进,以及下一步我应该做什么。

我使用的是 Ubuntu 10.10,我有 Apache Tomcat 7。

4

1 回答 1

-1

是用于 nutch 安装,是用于与 Solr 集成。

关于解析器,nutch 有自己的一套解析器,你不必费心去解析。触发抓取命令,它会自动完成。除非您想解析 nutch 提供的内容之外的内容,否则这对您来说不是问题。如果你想让 nutch 解析一些 .xyz 文件,那么你需要为此编写解析器插件并与 nutch 集成。

于 2012-04-21T04:54:59.443 回答