我有一个EC2
设置r3.8xlarge (32 cores, 244G RAM)
。
在我的Spark
应用程序中,我从 DataBrick 读取两个 csv 文件S3
,Spark-CSV
每个 csv 有大约 500 万行。我是unionAll
两个 DataFrame 并dropDuplicates
在组合的 DataFrame 上运行一个。
但是当我有的时候,
val conf = new SparkConf()
.setMaster("local[32]")
.setAppName("Raw Ingestion On Apache Spark")
.set("spark.sql.shuffle.partitions", "32")
火花比慢.setMaster("local")
32核不是更快吗?