我写了一个火花作业。如下所示:
public class TestClass {
public static void main(String[] args){
String masterIp = args[0];
String appName = args[1];
String inputFile = args[2];
String output = args[3];
SparkConf conf = new SparkConf().setMaster(masterIp).setAppName(appName);
JavaSparkContext sparkContext = new JavaSparkContext(conf);
JavaRDD<String> rdd = sparkContext.textFile(inputFile);
Integer[] keyColumns = new Integer[] {0,1,2};
Broadcast<Integer[]> broadcastJob = sparkContext.broadcast(keyColumns);
Function<Integer,Long> createCombiner = v1 -> Long.valueOf(v1);
Function2<Long, Integer, Long> mergeValue = (v1,v2) -> v1+v2;
Function2<Long, Long, Long> mergeCombiners = (v1,v2) -> v1+v2;
JavaPairRDD<String, Long> pairRDD = rdd.mapToPair(new PairFunction<String, String, Integer>() {
private static final long serialVersionUID = -6293440291696487370L;
@Override
public Tuple2<String, Integer> call(String t) throws Exception {
String[] record = t.split(",");
Integer[] keyColumns = broadcastJob.value();
StringBuilder key = new StringBuilder();
for (int index = 0; index < keyColumns.length; index++) {
key.append(record[keyColumns[index]]);
}
key.append("|id=1");
Integer value = new Integer(record[4]);
return new Tuple2<String, Integer>(key.toString(),value);
}}).combineByKey(createCombiner, mergeValue, mergeCombiners).reduceByKey((v1,v2) -> v1+v2);
pairRDD.saveAsTextFile(output);
}
}
该程序计算每个键的值的总和。根据我的理解,本地组合器应该在每个节点上运行并将相同键的值相加,然后在少量数据的情况下进行混洗。但在 SparkUI 上,它显示了大量的随机读取和随机写入(几乎 58GB)。我做错什么了吗?如何知道本地合路器是否工作?
集群详细信息:-
20 个节点集群
每个节点具有 80GB 硬盘、8GB RAM、4 核
Hadoop-2.7.2
Spark-2.0.2(prebuild-with-Hadoop-2.7.x 分发版)
输入文件详细信息:-
输入文件存储在 hdfs
输入文件大小:400GB
记录数:16,129,999,990
记录列:String(2 char),int,int,String(2 char),int,int,String(2 char),字符串(2 个字符),字符串(2 个字符)
注意:最大不同键数为 1081600。
在 spark 日志中,我看到任务以 localitylevel NODE_LOCAL 运行。