我正在尝试为我的最后一年项目构建一个搜索引擎。在过去的两个月里,我对这个主题做了很多研究。我发现我需要一个爬虫来爬取互联网、一个解析器和一个索引器。
我正在尝试使用 Nutch 作为爬虫和 solr 来索引 Nutch 爬取的数据。但我被困在他们两个的安装部分。我正在尝试借助互联网上的教程在我的系统中安装 Nutch 和 solr,但对我没有任何帮助。
我需要某种安装指南或链接,我可以在其中学习如何安装和集成 Nutch 和 solr。
接下来我被解析器困住了。我不知道这个阶段。我需要有关如何在索引之前解析数据的帮助。
我不想建立谷歌或其他东西。我所需要的只是来自某些网站的某些要搜索的项目。
我有 Java 经验,我可以轻松地使用它,但我不像你们这样专业,请告诉我我是否朝着正确的方向前进,以及下一步我应该做什么。
我使用的是 Ubuntu 10.10,我有 Apache Tomcat 7。