hadoop - 带有数据挖掘的 MapReduce 项目

Question

我打算做一个涉及Hadoop库的MapReduce 项目，并在AWS上传的大数据上对其进行测试。我还没有最终确定一个想法。但我确信它将涉及某种数据处理、MapReduce 设计模式以及可能的图形算法、Hive 和 PigLatin。如果有人能给我一些想法，我将不胜感激。我的想法很少。

最后，我必须处理一些大型数据集并获取一些信息并得出一些结论。为此，我之前使用Weka进行数据挖掘（使用 Trees）。

但我不确定这是否是我现在唯一可以使用的东西（使用 Weka）。有没有其他方法可以处理大数据并得出关于大数据集的结论？

另外，我如何在其中涉及图表？

基本上我想做一个研究项目，但我不确定我到底应该做什么以及应该是什么样的？有什么想法吗？暗示性链接/想法？知识共享？

score 1 · Accepted Answer

我建议你检查一下Apache Mahout，它是一个可扩展的机器学习和数据挖掘框架，应该与 Hadoop 很好地集成。

Hive 为您提供了类似 SQL 的语言来查询大数据，本质上它将您的高级查询转换为 MapReduce 作业并在数据集群上运行它。

另一个建议是考虑使用 R 进行数据处理算法，它是一个统计软件（类似于 matlab），我建议使用R Revolution代替标准 R 环境，这是一个开发 R 的环境，但使用用于大数据和集群的强大工具。

编辑：如果你是学生，R Revolution 有一个免费的学术版。

编辑：第三个建议是查看GridGain，它是 Java 中的另一个 Map/Reduce 实现，相对容易在集群上运行。

score 0 · Accepted Answer

由于您已经在使用 MapRedude 和 Hadoop，您可以使用Mahout从数据中提取一些知识，或者您可以从这本非常好的书中获得一些想法：

http://infolab.stanford.edu/~ullman/mmds.html

这本书提供了挖掘社交网络图的想法，并以其他几种方式处理图。

希望能帮助到你！

hadoop - 带有数据挖掘的 MapReduce 项目

2 回答 2

Related

Reference