我有一个EC2设置r3.8xlarge (32 cores, 244G RAM)。
在我的Spark应用程序中,我从 DataBrick 读取两个 csv 文件S3,Spark-CSV每个 csv 有大约 500 万行。我是unionAll两个 DataFrame 并dropDuplicates在组合的 DataFrame 上运行一个。
但是当我有的时候,
val conf = new SparkConf()
.setMaster("local[32]")
.setAppName("Raw Ingestion On Apache Spark")
.set("spark.sql.shuffle.partitions", "32")
火花比慢.setMaster("local")
32核不是更快吗?