solr - Nutch、Hadoop、Solr、MapReduce 和 Mahout 的信息

Question

PS：如果我有任何错误，请纠正我

我正在用 Nutch 和 Solr 构建一个搜索引擎。
我知道通过使用 Solr，我可以提高 Searching 的效率——让 Nutch 独自完成整个网络的爬取。
我还知道 Hadoop 用于通过形成集群和 MapReduce 来处理 PB 级的数据。

现在，我想知道的是
1) 因为，我将只在一台机器上运行这些开源软件，即我在本地主机上的笔记本电脑......在我的情况下，Hadoop 在形成集群时有什么好处？如何仅在一台机器上形成集群？

2）在我的情况下，MapReduce 的重要性是什么？

3) MAHOUT、CASSANDRA 和 HBASE 如何影响我的引擎？？？

非常感谢这方面的任何帮助。如果我问了一个菜鸟问题，请向我道歉！
谢谢
问候

score 5 · Accepted Answer

1）因为，我将只在一台机器上运行这些开源软件，即我在本地主机上的笔记本电脑......在我的情况下，Hadoop 在形成集群时有什么好处？

创建 Hadoop 是为了处理大规模数据。Hadoop 是一个分布式应用程序。它不会在单台机器上为您带来好处。

如何仅在一台机器上形成集群？

以伪集群模式安装 Hadoop

在我的情况下，MapReduce 的重要性是什么？

同样，如果您想处理由爬虫抓取的 1000 GB 规模的页面。Map-Reduce 在处理如此大的数据时很有用

MAHOUT、CASSANDRA 和 HBASE 将如何影响我的引擎？？？

它们是针对不同需求的不同工具。

Mahout 是一种机器学习算法，适用于在 Hadoop 或本地文件上作为 map-reduce 任务运行。你想学习像谷歌翻译这样的语言，你可以使用它。

HBase 是一个 no-sql 数据库，它通过 ad hoc 分析提供更实时的数据处理，其中 map-reduce 更有用。

我建议你回到你的问题陈述，使用尽可能少的工具进行设计，当你点击笔记时，你会明白这些工具中的一些什么时候有用。

solr - Nutch、Hadoop、Solr、MapReduce 和 Mahout 的信息

1 回答 1

Related

Reference