我想做一个搜索引擎。我想在其中抓取一些站点并将它们的索引和信息存储在 Hadoop 中。然后使用 Solr 搜索将完成。但我面临很多问题。如果通过 google 搜索,那么不同的人会给出不同的建议和不同的配置方式来设置基于 hadoop 的搜索引擎。这些是我的一些问题:
1)如何爬行?有没有使用 NUTCH 来完成爬行?如果是,那么 Hadoop 和 NUTCH 如何相互通信?
2) Solr 有什么用?如果 NUTCH 完成了爬取,并将爬取的索引和信息存储到 Hadoop 中,那么 Solr 的作用是什么?
3) 我们可以使用 Solr 和 Nutch 进行搜索吗?如果是,那么他们会将抓取的索引保存在哪里?
4) Solr 如何与 Hadoop 通信?
5)如果可能的话,请一一解释我如何抓取一些网站并将它们的信息保存到数据库(Hadoop或任何其他)中,然后进行搜索。
我真的很坚持这一点。任何帮助将不胜感激。
非常感谢提前。:)
请帮我解决我的大问题