-1

我是 hadoop 和 mapreduce 的新手。我在 hadoop Mapreduce 中运行数据时遇到问题。我希望以毫秒为单位给出结果。有什么方法可以在几毫秒内执行我的 Mapreduce 作业?如果不是,那么 hadoop mapreduce 可以在完全分布式的多集群(5-6 个节点)中花费的最短时间是多少。在 hadoop mapreduce 中要分析的文件大小约为 50-100Mb 程序是用 Pig 编写的。有什么建议吗?

4

2 回答 2

1

对于数据的即席实时查询,请使用ImapalaApache Drill (WIP)。Drill 基于Google Dremel

Hive 作业被转换为 MapReduce,因此 Hive 在本质上也是面向批处理的,而不是实时的。不过,很多工作正在进行以提高 Hive(12)的性能。

于 2013-03-22T14:30:11.283 回答
0

这是不可能的(afaik)。hadoop 一开始并不意味着实时的东西。它最适合批处理作业。mapreduce 框架需要一些时间来接受和设置工作,这是您无法避免的。而且我认为让超高端机器设置hadoop集群不是一个明智的决定。此外,框架必须在实际开始工作之前做一些事情,例如创建数据的逻辑拆分。

于 2013-03-21T20:26:39.130 回答