问题标签 [apache-spark-standalone]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
93 浏览

apache-spark - 不稳定的执行器在火花独立集群中一次又一次地重新连接?

我低于堆栈跟踪,执行程序丢失并创建新的执行程序连接。

这个堆栈跟踪的原因是什么?是因为主从机器java版本不同还是这与集群配置有关。请指导我,因为此错误消息出现的原因是什么?

0 投票
0 回答
138 浏览

java - Spark Standalone 集群仅使用了两个工作人员

在 Spark Standalone Cluster 中,6 个工作实例中只有 2 个被使用,其余的都是空闲的。我使用了两个具有 4 个内核的 VM。2 个工作人员在本地 VM 上(master 启动的地方),4 个工作人员在另一个 VM 上。只有本地两个得到利用。我还尝试与 4 名非本地工人一起运行它,即使那时也只有 2 名被使用。我应该怎么办?

这是 spark-submit 命令:-

./spark-submit --master spark://10.234.17.101:7077 --class com.emc.pluto.rca.engine.Server --jars /root/rt.jar, /root/ashwin/spark-core_2。 10-2.2.0.jar 我已经在 spark-env.sh 中指定了worker实例和内存——</p>

0 投票
1 回答
349 浏览

scala - 由于 GC 开销限制,简单的 spark 作业失败

我在本地机器上创建了一个独立的 spark (2.1.1) 集群,每台机器有 9 个内核/80G(总共 27 个内核/240G Ram)

我有一个示例 spark 作业,它将从 1 到 x 的所有数字相加,这是代码:

运行上面的代码时,几秒钟后我得到了结果,所以我把代码从 1 到 1B (1,000,000,000) 的所有数字加起来,然后达到了 GC 开销限制

我读到如果没有足够的内存,火花应该将内存溢出到硬盘驱动器,我尝试使用我的集群配置,但这没有帮助。

我不是开发人员,对 Scala 一无所知,但想找到一个解决方案来运行此代码而不会出现 GC 问题。

根据@philantrovert 的请求,我正在添加我的 spark-submit 命令

此外,我的 spark/conf 如下:

  • slaves 文件包含我的节点(包括主节点)的 3 个 IP 地址
  • spark-defaults 包含:
    • spark.master spark://192.168.1.2:7077
    • spark.driver.memory 10g
  • spark-env.sh 包含:
    • SPARK_LOCAL_DIRS= 所有节点之间的共享文件夹
    • SPARK_EXECUTOR_MEMORY=10G
    • SPARK_DRIVER_MEMORY=10G
    • SPARK_WORKER_CORES=1
    • SPARK_WORKER_MEMORY=10G
    • SPARK_WORKER_INSTANCES=8
    • SPARK_WORKER_DIR= 所有节点之间的共享文件夹
    • SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true"

谢谢

0 投票
0 回答
267 浏览

apache-spark - 缓冲区/缓存耗尽 Spark 独立于 Docker 容器内

我有一个非常奇怪的内存问题(这是很多人很可能会说的 ;-)),Spark 在 Docker 容器内以独立模式运行。我们的设置如下:我们有一个 Docker 容器,其中有一个 Spring Boot 应用程序,它以独立模式运行 Spark。这个 Spring 启动应用程序还包含一些计划任务(由 Spring 管理)。这些任务触发 Spark 作业。Spark 作业抓取一个 SQL 数据库,稍微打乱数据,然后将结果写入不同的 SQL 表(写入结果不通过 Spark)。我们当前的数据集非常小(表包含几百万行)。

问题是运行 Docker 容器的 Docker 主机(一个 CentOS 虚拟机)在一段时间后由于内存耗尽而崩溃。我目前已将 Spark 内存使用限制为 512M(我已设置执行程序和驱动程序内存),在 Spark UI 中,我可以看到最大的作业只需要大约 10 MB 的内存。我知道如果 Spark 有 8GB 或更多可用内存,它运行得最好。我也试过了,但结果是一样的。

在进一步挖掘之后,我注意到 Spark 耗尽了机器上的所有缓冲区/缓存内存。通过强制 Linux 删除缓存(echo 2 > /proc/sys/vm/drop_caches)(清除 dentries 和 inode)手动清除它后,缓存使用率会大大下降,但如果我不经常这样做,我会看到缓存使用量会缓慢上升,直到缓冲区/缓存中的所有内存都用完。

有谁知道我可能做错了什么/这里发生了什么?

非常感谢您的帮助!

0 投票
0 回答
76 浏览

java - Spark 独立集群端口相关问题

我正在通过独立集群部署 spark 应用程序。我有一个主人和两个奴隶。

我正在测试我的集群。我在同一个位置到处都复制了应用程序 .jar。

我观察到以下问题:

在大师

线程“主”java.net.BindException 中的异常:无法分配请求的地址:服务“驱动程序”在 16 次重试后失败!考虑将服务“驱动程序”的适当端口(例如 SparkUI 的 spark.ui.port)显式设置为可用端口或增加 spark.port.maxRetries。

在slave1上

作业执行

在slave2上

作业执行

但是我在奴隶上提交了多个作业,只有第一个作业执行。

在大师

作业执行占用两个从属设备上的全部资源,并且不考虑剩余的参数

但是,如果我将 jar 放在命令末尾,则会发生上述前 3 种情况。

我已经 在 AWS ec2 实例上使用http://spark.praveendeshmane.co.in/spark/spark-1-6-1-cluster-mode-installation-on-ubuntu-14-04.jsp完成了集群配置。

我想同时执行多个作业。

0 投票
3 回答
1134 浏览

apache-spark - Spark 独立集群调优

我们在具有 8 个内核和 50GB 内存(单工作者)的单个节点上运行 spark 2.1.0 独立集群。

我们使用以下内存设置在集群模式下运行 spark 应用程序 -

最近,我们观察到 executor 经常被 driver/master 杀死并重新启动。我发现下面的驱动程序日志 -

应用程序不是那么占用内存,有几个连接并将数据集写入目录。相同的代码在 spark-shell 上运行,没有任何故障。

寻找集群调整或任何可以减少执行者被杀死的配置设置。

0 投票
1 回答
584 浏览

apache-spark - 通过独立集群中的 REST 作业提交的 spark.master 配置被忽略

我有一个 HA 模式下的独立 spark 集群(2 个主节点)和几个在那里注册的工人。

我通过 REST 接口提交了火花作业,并提供了以下详细信息,

此请求通过 REST 接口 ( http://spark-hn1:6066/v1/submissions/create ) 提交给 Active Spark Master。

当驱动程序启动时,-Dspark.master 设置为“spark://spark-hn1:7077”,而不是 sparkProperties 中传递的值,即“spark://spark-hn0:7077,spark-hn1:7077 ”。

来自运行驱动程序的工作节点的日志

当活动主机在作业执行期间关闭并且另一个主机变为活动时,这给我带来了问题。由于驱动程序只知道一个主控(旧主控),因此无法到达新主控并继续执行作业(因为 spark.driver.supervise=true)

在 Spark REST 接口中传递多个主 url 的正确方法是什么。

0 投票
1 回答
1124 浏览

apache-spark - 为什么停止独立 Spark 主服务器失败并显示“没有 org.apache.spark.deploy.master.Master 停止”?

停止独立 spark master 失败并显示以下消息:

为什么?有一个 Spark Standalone 主机启动并运行。

0 投票
1 回答
874 浏览

apache-spark - Spark Standalone --total-executor-cores

我使用 Spark 2.1.1 独立集群,

虽然我的集群中有 29个空闲Cores in use: 80 Total, 51 Used核心(--total-executor-cores 16

我错过了什么?(删除检查点没有帮助)

这是我的 spark-submit 命令:

0 投票
1 回答
1843 浏览

apache-spark - Spark - 本地独立模式不会写入历史服务器

我正在尝试在我的 Mac 上以单一独立模式启用 Spark 历史服务器。我有一个 spark-master 服务正在运行并且能够运行作业。我还有一个在 localhost 上运行的历史服务器服务。我可以在浏览器中查看它,但上面没有任何应用程序的记录。我只能假设我错过了一些我不知道是什么的配置。有人可以建议如何配置历史服务器以与本地独立 Spark 一起使用吗?

这是我的配置: