solr - 如果我们要使用 Hadoop 和 Solr 制作搜索引擎，NUTCH 的作用是什么？

Question

我想做一个搜索引擎。我想在其中抓取一些站点并将它们的索引和信息存储在 Hadoop 中。然后使用 Solr 搜索将完成。但我面临很多问题。如果通过 google 搜索，那么不同的人会给出不同的建议和不同的配置方式来设置基于 hadoop 的搜索引擎。这些是我的一些问题：

1）如何爬行？有没有使用 NUTCH 来完成爬行？如果是，那么 Hadoop 和 NUTCH 如何相互通信？

2) Solr 有什么用？如果 NUTCH 完成了爬取，并将爬取的索引和信息存储到 Hadoop 中，那么 Solr 的作用是什么？

3) 我们可以使用 Solr 和 Nutch 进行搜索吗？如果是，那么他们会将抓取的索引保存在哪里？

4) Solr 如何与 Hadoop 通信？

5）如果可能的话，请一一解释我如何抓取一些网站并将它们的信息保存到数据库（Hadoop或任何其他）中，然后进行搜索。

我真的很坚持这一点。任何帮助将不胜感激。

非常感谢提前。:)

请帮我解决我的大问题

score 1 · Accepted Answer

我们使用 Nutch 作为网络爬虫，使用 Solr 在一些生产环境中进行搜索。所以我希望我能给你一些关于3）的信息。

这是如何运作的？Nutch 有自己的爬行数据库和一些开始爬行的网站。它有一些插件，您可以在其中配置不同的东西，例如 pdf 抓取，哪些字段将从 html 站点中提取等等。在抓取 Nutch 时，会存储从网站中提取的所有链接，并将在下一个周期中跟踪它们。所有爬取结果都将存储在爬取数据库中。在 Nutch 中，您配置了一个间隔，其中爬取的结果将过时，并且爬虫从定义的起始点开始。

爬取数据库中的结果将同步到 solr 索引。因此，您正在搜索 solr 索引。Nutch 只是为了从网站获取数据并将其提供给 solr。

solr - 如果我们要使用 Hadoop 和 Solr 制作搜索引擎，NUTCH 的作用是什么？

1 回答 1

Related

Reference