我想同时在四个不同的文件上运行 spark wordcount 应用程序。
我有带有 4 个工作节点的独立集群,每个节点都有一个核心和 1gb 内存。
spark 在独立模式下工作... 1.4worker 节点 2.1 每个工作节点的核心 每个节点 3.1gb 内存 4.core_max 设置为 1
./conf/spark-env.sh
**
export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=1"
export SPARK_WORKER_OPTS="-Dspark.deploy.defaultCores=1"
export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_INSTANCES=4
**
我已经使用 .sh 文件执行了
./bin/spark-submit --master spark://-Aspire-E5-001:7077 ./wordcount.R txt1 &
./bin/spark-submit --master spark://-Aspire-E5-001:7077 ./wordcount.R txt2 &
./bin/spark-submit --master spark://-Aspire-E5-001:7077 ./wordcount.R txt3 &
./bin/spark-submit --master spark://-Aspire-E5-001:7077 ./wordcount.R txt4
这是并行提交申请的正确方法吗?
当一个应用程序运行时需要 2 秒(仅使用一个内核)当同时给出 4 个应用程序时,每个应用程序需要超过 4 秒...... 我如何在不同的文件上并行运行 spark 应用程序?