1

我打算做一个涉及Hadoop库的MapReduce 项目,并在AWS上传的大数据上对其进行测试。我还没有最终确定一个想法。但我确信它将涉及某种数据处理、MapReduce 设计模式以及可能的图形算法、Hive 和 PigLatin。如果有人能给我一些想法,我将不胜感激。我的想法很少。

最后,我必须处理一些大型数据集并获取一些信息并得出一些结论。为此,我之前使用Weka进行数据挖掘(使用 Trees)。

但我不确定这是否是我现在唯一可以使用的东西(使用 Weka)。有没有其他方法可以处理大数据并得出关于大数据集的结论?

另外,我如何在其中涉及图表?

基本上我想做一个研究项目,但我不确定我到底应该做什么以及应该是什么样的?有什么想法吗 ?暗示性链接/想法?知识共享 ?

4

2 回答 2

1

我建议你检查一下Apache Mahout,它是一个可扩展的机器学习和数据挖掘框架,应该与 Hadoop 很好地集成。

Hive 为您提供了类似 SQL 的语言来查询大数据,本质上它将您的高级查询转换为 MapReduce 作业并在数据集群上运行它。

另一个建议是考虑使用 R 进行数据处理算法,它是一个统计软件(类似于 matlab),我建议使用R Revolution代替标准 R 环境,这是一个开发 R 的环境,但使用用于大数据和集群的强大工具。

编辑:如果你是学生,R Revolution 有一个免费的学术版。

编辑:第三个建议是查看GridGain,它是 Java 中的另一个 Map/Reduce 实现,相对容易在集群上运行。

于 2012-11-13T08:57:23.293 回答
0

由于您已经在使用 MapRedude 和 Hadoop,您可以使用Mahout从数据中提取一些知识,或者您可以从这本非常好的书中获得一些想法:

http://infolab.stanford.edu/~ullman/mmds.html

这本书提供了挖掘社交网络图的想法,并以其他几种方式处理图。

希望能帮助到你!

于 2014-01-10T12:27:35.370 回答