问题标签 [apache-spark-standalone]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
479 浏览

python - 在客户端模式下运行时如何引导火花日志?

我正在使用用于监控的模式pyspark在集群上运行应用程序。clientstandalone

我想做的就是查看日志。

我尝试了两件事:

1) 我转到spark-defaults.confSPARK_HOME 中的配置文件 ( ):

2)在我的python脚本中设置以下内容:

这些似乎都不会在文件夹中产生日志。还有什么我可以尝试的吗?

谢谢你。这是火花1.3

0 投票
1 回答
267 浏览

apache-spark - 集群上的独立火花

我在集群的每个节点上安装了 pre_built 版本的 spark,(只需下载然后解压缩)

问题一:

我是否必须将文件 slaves.template 和 spark-env.sh.template 复制到 conf 目录中,然后编辑它们以将我的机器相互连接?如果是的话,我怎么能只通过命令来做到这一点

问题2:

我在一台远程机器上吃了一顿主人(当我想从我的本地机器上访问 spark web UI 时,使用

我的浏览器上没有显示任何内容,为什么以及我缺少什么?

问题3:

如果我的集群上有 6 个节点,并且例如我只想使用 4 个节点,我是否必须与主节点共进午餐,然后仅在我想使用的节点中使用午餐工作者?

0 投票
1 回答
526 浏览

ubuntu - Spark Web UI 无法访问

我已经在 12 个节点上安装了 spark2.0.0(在集群独立模式下),当我启动它时,我得到了这个:

启动 org.apache.spark.deploy.master.Master,登录到 /home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.spark.deploy.master。 Master-1-ibnb25.out

localhost192.17.0.17:ssh:无法解析主机名 localhost192.17.0.17:名称或服务未知

192.17.0.20:启动 org.apache.spark.deploy.worker.Worker,登录到 /home/mbala/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.spark。 deploy.worker.Worker-1-ibnb28.out

192.17.0.21:启动 org.apache.spark.deploy.worker.Worker,登录到 /home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.spark。 deploy.worker.Worker-1-ibnb29.out

192.17.0.19:启动 org.apache.spark.deploy.worker.Worker,登录到 /home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.spark。 deploy.worker.Worker-1-ibnb27.out

192.17.0.18:启动 org.apache.spark.deploy.worker.Worker,登录到 /home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.spark。 deploy.worker.Worker-1-ibnb26.out

192.17.0.24:启动 org.apache.spark.deploy.worker.Worker,登录到 /home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.spark。 deploy.worker.Worker-1-ibnb32.out

192.17.0.22:启动 org.apache.spark.deploy.worker.Worker,登录到 /home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.spark。 deploy.worker.Worker-1-ibnb30.out

192.17.0.25:启动 org.apache.spark.deploy.worker.Worker,登录到 /home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.spark。 deploy.worker.Worker-1-ibnb33.out

192.17.0.28:启动 org.apache.spark.deploy.worker.Worker,登录到 /home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.spark。 deploy.worker.Worker-1-ibnb36.out

192.17.0.27:启动 org.apache.spark.deploy.worker.Worker,登录到 /home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.spark。 deploy.worker.Worker-1-ibnb35.out

192.17.0.17:启动 org.apache.spark.deploy.worker.Worker,登录到 /home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.spark。 deploy.worker.Worker-1-ibnb25.out

192.17.0.26:启动 org.apache.spark.deploy.worker.Worker,登录到 /home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.spark。 deploy.worker.Worker-1-ibnb34.out

192.17.0.23:启动 org.apache.spark.deploy.worker.Worker,登录到 /home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.spark。 deploy.worker.Worker-1-ibnb31.out

我已经设置了端口 o 主端口 = 8081,其 IP = 192.17.0.17 表示 HOSTNAME = ibnb25,我从该主机启动了集群。

从我的本地机器我使用这个命令来访问集群

当我想从本地机器访问 Web UI 时,我使用了主服务器的 IP 地址(HOST ibnb25)

但它无法显示,所以我尝试使用我用来访问集群的地址

但我的浏览器上没有显示任何内容.....出了什么问题??请帮帮我

0 投票
1 回答
1709 浏览

java - 找不到火花应用程序输出

我有一个可以成功启动的集群,至少这是我在其中看到此信息的 Web UI 上显示的内容

如果我以这种方式使用它,我使用提交命令来运行我的应用程序

我收到这条消息:

使用 REST 应用程序提交协议运行 Spark。使用 Spark 的默认 log4j 配置文件:org/apache/spark/log4j-defaults.properties 16/08/31 15:55:16 INFO RestSubmissionClient:在 spark://Name25:7077 中提交启动应用程序的请求。16/08/31 15:55:27 WARN RestSubmissionClient:无法连接到服务器 spark://Name25:7077。警告:主端点 spark://Name25:7077 不是 REST 服务器。而是回退到旧版提交网关。16/08/31 15:55:28 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... 在适用的情况下使用内置 java 类

如果我以这种方式使用它:

我收到这条消息

使用 REST 应用程序提交协议运行 Spark。使用 Spark 的默认 log4j 配置文件:org/apache/spark/log4j-defaults.properties 16/08/31 16:59:06 INFO RestSubmissionClient:在 spark://Name25:6066 中提交启动应用程序的请求。16/08/31 16:59:06 INFO RestSubmissionClient: 提交成功创建为驱动程序-20160831165906-0004。轮询提交状态... 16/08/31 16:59:06 INFO RestSubmissionClient: 在 spark://Name25:6066 中提交对提交 driver-20160831165906-0004 状态的请求。16/08/31 16:59:06 INFO RestSubmissionClient:驱动程序 driver-20160831165906-0004 的状态现在正在运行。16/08/31 16:59:06 INFO RestSubmissionClient:驱动程序正在工作人员 worker-20160831143117-10.0.10.48-38917 在 10.0.10.48:38917 上运行。16/08/31 16:59:06 INFO RestSubmissionClient:

我认为这是成功的,但我的应用程序应该有 3 个输出到给定路径(/home/result),因为我在我的代码中使用了:

问题 1:为什么它要求我使用“spark://Name25:6066”而不是“spark://Name25:7077”?因为根据火花网站我们使用:7077

问题2:如果显示提交成功并完成申请,为什么我找不到3个输出文件夹?

0 投票
0 回答
246 浏览

java - 提交火花申请时出错

我正在尝试提交一个非常简单的应用程序,它包括从一个输入大文件(大约 500 GO)创建两个 rdd,减去标题(第一行),用索引压缩它们,通过小修改将它们映射到键值然后将它们保存为文本文件

我能够在 spark web UI 上看到作业的进度,最后 2 个作业由于此错误而失败,请告诉我它的原因是什么以及如何解决它

由于阶段失败而中止作业:阶段 2.0 中的任务 4897 失败 1 次,最近一次失败:阶段 2.0 中丢失任务 4897.0(TID 4914,本地主机):java.io.IOException:Aucun espace disponible sur le périphérique at java.io。 FileOutputStream.writeBytes(Native Method) at java.io.FileOutputStream.write(FileOutputStream.java:345) at org.apache.spark.storage.TimeTrackingOutputStream.write(TimeTrackingOutputStream.java:58) at java.io.BufferedOutputStream.flushBuffer( BufferedOutputStream.java:82) 在 java.io.BufferedOutputStream.flush(BufferedOutputStream.java:140) 在 net.jpountz.lz4.LZ4BlockOutputStream.finish(LZ4BlockOutputStream.java:243) 在 net.jpountz.lz4.LZ4BlockOutputStream.close(LZ4BlockOutputStream .java:175) 在 org.apache.spark.serializer.DummySerializerInstance$1.close(DummySerializerInstance.java:65) 在 org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1296) 的 org.apache.spark.storage.DiskBlockObjectWriter$$anonfun$close$2.apply$mcV$sp(DiskBlockObjectWriter.scala:108) ) 在 org.apache.spark.storage.DiskBlockObjectWriter.commitAndClose(DiskBlockObjectWriter.scala:132) 在 org.apache.spark.shuffle.sort 的 org.apache.spark.storage.DiskBlockObjectWriter.close(DiskBlockObjectWriter.scala:107)。 ShuffleExternalSorter.writeSortedFile(ShuffleExternalSorter.java:188) at org.apache.spark.shuffle.sort.ShuffleExternalSorter.closeAndGetSpills(ShuffleExternalSorter.java:410) at org.apache.spark.shuffle.sort.UnsafeShuffleWriter.closeAndWriteOutput(UnsafeShuffleWriter.java: 204) 在 org.apache.spark.scheduler 的 org.apache.spark.shuffle.sort.UnsafeShuffleWriter.write(UnsafeShuffleWriter.java:164)。ShuffleMapTask.runTask(ShuffleMapTask.scala:79) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:47) at org.apache.spark.scheduler.Task.run(Task.scala:85) at org .apache.spark.executor.Executor$TaskRunner.run(Executor.scala:27​​4) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor .java:615) 在 java.lang.Thread.run(Thread.java:745)第1145章第1145章

驱动程序堆栈跟踪:

附言; 有一句法语句子:

Aucun espace disponible sur le périphérique :表示此设备上没有可用空间,

好吧,我认为这是原因,但我不明白哪个设备以及如何解决它

0 投票
0 回答
108 浏览

apache-spark - 在 Spark 中单独提交 Spark - 所有内存都交给了驱动程序

我已经设置了一个 Spark 独立集群,我可以在其中使用 spark-submit 提交作业:

spark-submit \ --class blah.blah.MyClass \ --master spark://myaddress:6066 \ --executor-memory 8G \ --deploy-mode cluster \ --total-executor-cores 12 \ /path/to/jar/myjar.jar

问题是当我同时发送多个工作时,一次说超过 20 个,前几个成功完成。所有其他人现在都在等待资源。我注意到所有可用内存都已分配给驱动程序,因此在驱动程序部分它们都在运行,但在运行应用程序部分它们都处于等待状态。

如何告诉 spark 独立首先将内存分配给 WAITING 执行程序而不是 SUBMITTED 驱动程序?

谢谢你

以下是我的 spark-defaults.conf 的摘录 spark.master spark://address:7077 spark.eventLog.enabled true spark.eventLog.dir /path/tmp/sparkEventLog spark.driver.memory 5g spark.local.dir /path/tmp spark.ui.port xxx

0 投票
1 回答
8469 浏览

apache-spark - Spark 独立数量执行器/核心控制

所以我有一个 16 核和 64GB RAM 的 spark 独立服务器。我在服务器上运行了主服务器和工作程序。我没有启用动态分配。我在 Spark 2.0

我不明白的是当我提交我的工作并指定:

只应占用 4 个核心。然而,当提交作业时,它会占用所有 16 个内核并启动 8 个执行器,而忽略了num-executors参数。但是,如果我将executor-cores参数更改为4它将相应地调整,并且 4 个执行器将启动。

0 投票
1 回答
1862 浏览

java - java.lang.IllegalStateException:找不到任何构建目录

我想在 Intellij 中运行 spark master 和 worker。我已经成功启动了 spark master 和 worker。工人也连接到主人没有任何问题。我可以通过查看日志和 Spark Web UI 来确认这一点。但是当我尝试在此设置上运行任何应用程序时,问题就开始了。目前,我正在尝试在此设置上运行 spark-shell,但是当它尝试掌握时,我在 master 上收到一些错误消息,在 worker 上收到 IlligalStateException。

主日志(成功启动)

Worker 日志(启动成功)

主日志(尝试运行 spark-shell 时)

工作日志(尝试运行 spark-shell 时)

有人可以帮我解决这个问题吗?

0 投票
2 回答
1982 浏览

apache-spark - spark中每个worker节点运行多少个executor进程?

Spark 中每个工作节点会启动多少个执行器?我能知道它背后的数学原理吗?

例如,我有 6 个工作节点和 1 个主节点,如果我通过 spark-submit 提交作业,将为作业启动多少个执行器?

0 投票
1 回答
1749 浏览

apache-spark - 如何使 Spark 驱动程序对 Master 重启有弹性?

我有一个 Spark Standalone(不是 YARN/Mesos)集群和一个正在运行的驱动程序应用程序(在客户端模式下),它与该集群通信以执行其任务。但是,如果我关闭并重新启动 Spark 主服务器和工作程序,驱动程序不会重新连接到主服务器并恢复其工作。

也许我对 Spark Master 和驱动程序之间的关系感到困惑。在这种情况下,Master 是否负责重新连接到驱动程序?如果是这样,Master 是否将其当前状态序列化到磁盘上可以在重启时恢复的某个位置?