3

我想做一个搜索引擎。我想在其中抓取一些站点并将它们的索引和信息存储在 Hadoop 中。然后使用 Solr 搜索将完成。但我面临很多问题。如果通过 google 搜索,那么不同的人会给出不同的建议和不同的配置方式来设置基于 hadoop 的搜索引擎。这些是我的一些问题:

1)如何爬行?有没有使用 NUTCH 来完成爬行?如果是,那么 Hadoop 和 NUTCH 如何相互通信?

2) Solr 有什么用?如果 NUTCH 完成了爬取,并将爬取的索引和信息存储到 Hadoop 中,那么 Solr 的作用是什么?

3) 我们可以使用 Solr 和 Nutch 进行搜索吗?如果是,那么他们会将抓取的索引保存在哪里?

4) Solr 如何与 Hadoop 通信?

5)如果可能的话,请一一解释我如何抓取一些网站并将它们的信息保存到数据库(Hadoop或任何其他)中,然后进行搜索。

我真的很坚持这一点。任何帮助将不胜感激。

非常感谢提前。:)

请帮我解决我的大问题

4

1 回答 1

1

我们使用 Nutch 作为网络爬虫,使用 Solr 在一些生产环境中进行搜索。所以我希望我能给你一些关于3)的信息。

这是如何运作的?Nutch 有自己的爬行数据库和一些开始爬行的网站。它有一些插件,您可以在其中配置不同的东西,例如 pdf 抓取,哪些字段将从 html 站点中提取等等。在抓取 Nutch 时,会存储从网站中提取的所有链接,并将在下一个周期中跟踪它们。所有爬取结果都将存储在爬取数据库中。在 Nutch 中,您配置了一个间隔,其中爬取的结果将过时,并且爬虫从定义的起始点开始。

爬取数据库中的结果将同步到 solr 索引。因此,您正在搜索 solr 索引。Nutch 只是为了从网站获取数据并将其提供给 solr。

于 2012-11-30T14:54:00.290 回答