我正在从事一个处理大量数据分析的项目,因此我最近发现了 MapReduce,在我进一步深入研究之前,我想确保我的期望是正确的。
与数据的交互将通过 Web 界面进行,因此响应时间在这里很关键,我认为 10-15 秒的限制。假设在我对其进行任何分析之前,我的数据将被加载到分布式文件系统中,我可以从中获得什么样的性能?
假设我需要过滤一个简单的 5GB XML 文件,该文件格式良好,具有相当扁平的数据结构和 10,000,000 条记录。假设输出将产生 100,000 条记录。10秒可以吗?
如果是,我在看什么样的硬件?如果不是,为什么不呢?
我把这个例子放下了,但现在希望我没有。5GB 只是我所说的一个示例,实际上我会处理大量数据。5GB 可能是一天中一小时的数据,我可能想识别所有符合特定条件的记录。
数据库对我来说真的不是一个选择。我想知道的是使用 MapReduce 可以达到的最快性能是什么。总是在几分钟或几小时内?永远不会秒吗?