PS:如果我有任何错误,请纠正我
我正在用 Nutch 和 Solr 构建一个搜索引擎。
我知道通过使用 Solr,我可以提高 Searching 的效率——让 Nutch 独自完成整个网络的爬取。
我还知道 Hadoop 用于通过形成集群和 MapReduce 来处理 PB 级的数据。
现在,我想知道的是
1) 因为,我将只在一台机器上运行这些开源软件,即我在本地主机上的笔记本电脑......在我的情况下,Hadoop 在形成集群时有什么好处?如何仅在一台机器上形成集群?
2)在我的情况下,MapReduce 的重要性是什么?
3) MAHOUT、CASSANDRA 和 HBASE 如何影响我的引擎???
非常感谢这方面的任何帮助。如果我问了一个菜鸟问题,请向我道歉!
谢谢
问候