我知道 spark 进行内存计算并且比 MapReduce 快得多。我想知道 spark 对于记录 < 10000 的效果如何?我有大量文件(每个文件有大约 10000 条记录,比如 100 列文件)进入我的 hadoop 数据平台,我需要在加载到 hbase 之前执行一些数据质量检查。
我在后端使用 MapReduce 的 hive 中进行数据质量检查。每个文件大约需要 8 分钟,这对我来说非常糟糕。火花会给我更好的表现让我说2-3分钟吗?
我知道我必须做一个板凳标记,但在我真正开始使用 spark 之前,我试图了解这里的基础知识。我记得第一次创建 RDD 将是一项开销,因为我必须为每个传入的文件创建一个新的 RDD,这将花费我一点。
我很困惑哪一个对我来说是最好的方法——火花、钻头、风暴或 Mapreduce 本身?