我打算做一个涉及Hadoop库的MapReduce 项目,并在AWS上传的大数据上对其进行测试。我还没有最终确定一个想法。但我确信它将涉及某种数据处理、MapReduce 设计模式以及可能的图形算法、Hive 和 PigLatin。如果有人能给我一些想法,我将不胜感激。我的想法很少。
最后,我必须处理一些大型数据集并获取一些信息并得出一些结论。为此,我之前使用Weka进行数据挖掘(使用 Trees)。
但我不确定这是否是我现在唯一可以使用的东西(使用 Weka)。有没有其他方法可以处理大数据并得出关于大数据集的结论?
另外,我如何在其中涉及图表?
基本上我想做一个研究项目,但我不确定我到底应该做什么以及应该是什么样的?有什么想法吗 ?暗示性链接/想法?知识共享 ?