我在具有 2 个内核和 16GB RAM 的单个节点上以独立模式设置了 Spark,以制作一些粗略的 POC。
我想使用val df = spark.read.format('jdbc')...option('numPartitions',n).load()
. numPartitions
当我尝试通过调用 a来测量读取不同值的表格所花费的df.rdd.count
时间时,我发现无论我给出的值如何,时间都是相同的。我还注意到一个上下文 Web UI,即 Active executor 的数量为 1,即使我在 spark_env.sh 文件中给出了SPARK_WORKER_INSTANCES=2
和。SPARK_WORKER_CORES=1
我有两个问题:实际创建的
是否numPartitions
取决于执行者的数量?
如何在当前设置中使用多个执行程序启动 spark-shell?
谢谢!