1

我知道 spark 进行内存计算并且比 MapReduce 快得多。我想知道 spark 对于记录 < 10000 的效果如何?我有大量文件(每个文件有大约 10000 条记录,比如 100 列文件)进入我的 hadoop 数据平台,我需要在加载到 hbase 之前执行一些数据质量检查。

我在后端使用 MapReduce 的 hive 中进行数据质量检查。每个文件大约需要 8 分钟,这对我来说非常糟糕。火花会给我更好的表现让我说2-3分钟吗?

我知道我必须做一个板凳标记,但在我真正开始使用 spark 之前,我试图了解这里的基础知识。我记得第一次创建 RDD 将是一项开销,因为我必须为每个传入的文件创建一个新的 RDD,这将花费我一点。

我很困惑哪一个对我来说是最好的方法——火花、钻头、风暴或 Mapreduce 本身?

4

1 回答 1

1

我只是在大约数百万条记录中探索Drill vs Spark vs Hive的性能。在我的情况下,Dill 和 Spark 都快了大约5-10 倍我没有对具有大量 RAM 的集群执行任何性能测试,我只是在单个节点上测试)快速计算的原因 - 它们都执行内存计算.

在我的情况下,钻和火花的性能几乎可以媲美。所以,我不能说哪个更好。您需要在最后尝试一下。

在 Drill 上进行测试不会花费太多时间。下载最新的演习,安装在您的 mapr hadoop 集群上,添加 hive-storage插件并执行查询

于 2015-12-24T08:34:43.287 回答