问题标签 [spark-submit]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
89 浏览

spark-submit - spark-submit 可以用作作业调度程序吗?

我有一个 spark 独立集群,没有安装其他作业调度程序。我想知道是否spark-submit可以用作 spark 和 non-spark 作业的作业调度程序(例如,不是为 Spark 编写的 scala jar 并且不使用 RDD)?

根据我的测试,spark-submit用于提交非 Spark 作业并且作业运行成功。但这是我的问题:

  1. 以下选项仍然有意义吗? --driver-cores --driver-memory --executor-memory --total-executor-cores
  2. 如果否为 1,是否意味着spark-submit可以使用 FIFO 维护一个 spark 和 non-spark 作业队列,但它不管理 non-spark 作业的资源?
  3. 如果 2 为真,我是否应该使用另一个调度程序(例如 SGE 或 LSF)来提交非 Spark 作业?

谢谢!

0 投票
1 回答
421 浏览

apache-spark - Spark 异步作业失败并出现错误

我正在用java编写spark代码。当我使用foreachAsync火花失败并给我java.lang.IllegalStateException: Cannot call methods on a stopped SparkContext.

在这段代码中:

它工作正常。但在这段代码中:

它返回错误。我哪里错了?

0 投票
0 回答
222 浏览

apache-spark - 尝试在纱线集群上运行 spark-submit 作业,但我不断收到以下警告。我该如何解决这个问题?

我查看了类似的问题并尝试了提到的所有其他内容。当我查看 hdfs 上的 yarn-nodemanager 日志时,我看到以下可能导致错误的警告。如何修复这些警告?

纱线站点.xml 日志:

core-site.xml 日志:

hdfs-site.xml 日志:

如果我试图在错误的方向上为我的初始警告找到解决方案,请告诉我,因为应用程序继续运行但没有数据发送到 hdfs。谢谢!

0 投票
1 回答
1156 浏览

scala - Spark-Application 到本地目录

问题

由于 Mkdirs 未能创建 Spark 应用程序错误。我正在使用 spark 1.6.3 无法在本地目录中保存输出

更新日志

代码:

解决方案

确保整个集群都可以访问本地或特定目录。就我而言,集群或火花执行器无权访问特定目录。

0 投票
0 回答
550 浏览

scala - java.lang.ClassNotFoundException:java.net.URLClassLoader.findClass 的 SparkSql(未知来源)

SparkSql.scala

构建.sbt

系统使用的软件版本 spark:2.1.0 scala:2.11.8

我正在使用 IntelliJ。代码运行良好,但是当我将作业提交到我的独立集群时,它显示以下错误:

火花提交错误:

错误

0 投票
1 回答
4637 浏览

pyspark - Pyspark:使用 spark-submit 运行文件时执行 Jupyter 命令时出错

我能够运行 pyspark 并在 Jupyter 笔记本上运行脚本。但是当我尝试使用 spark-submit 从终端运行文件时,出现此错误:

执行 Jupyter 命令文件路径时出错[Errno 2] 没有这样的文件或目录

谁能帮我看看我的配置有什么问题?

我正在使用 Python 2.7 和 Spark 1.6

0 投票
0 回答
1542 浏览

java - 将文件(配置)从 HDFS 复制到每个 spark 执行器的本地工作目录

我正在寻找如何使用 Java 将包含资源依赖项文件的文件夹从 HDFS 复制到每个 spark 执行器的本地工作目录。

起初我想使用 spark-submit 的 --files FILES 选项,但它似乎不支持任意嵌套文件的文件夹。因此,看来我必须通过将此文件夹放在共享 HDFS 路径上,以便在运行作业之前由每个执行程序正确复制到其工作目录,但尚未找出如何在 Java 代码中正确执行此操作。

或者 zip/gzip/archive 这个文件夹,放到共享的 HDFS 路径下,然后将压缩包解压到每个 Spark 执行器的本地工作目录。

感谢任何帮助或代码示例。

这是配置文件的文件夹,它们是计算的一部分,应与 spark-submit 主 jar 位于同一位置(例如,数据库文件,运行作业时使用的 jar 代码,不幸的是我无法更改此依赖关系,因为我我正在重用现有代码)。

问候,-尤里

0 投票
2 回答
570 浏览

scala - 在火花代码管理 conf.setMaster() 使用配置文件自动设置本地或纱线集群

因此,在开发 spark 程序时,我使用本地机器,因此必须将 master 设置为“本地”。但是,当我提交从本地开发的程序构建的 jar 时,我显然不想使用“本地”模式。

如何在测试时使用 typesafeconfig 设置“本地”,在生产时设置“yarn-cluster”?

编辑:

基于@Shaido 的解决方案,对于 IDEA Intellij:

转到:运行->编辑配置->在应用程序配置集下: VM options = -Dspark.master=local[*]

0 投票
0 回答
40 浏览

apache-spark - Spark 和 YARN - 如何与它们一起工作

我有一个概念上的疑问。

这将是关于 YARN 和 SPARK,我有一个 2 YARN (AM) 28GB 和 4 个 CPU 和一个 56GB 的 WORKNODE 和 8 个 CPU。

我总是通过 spark-submit 选项中的 YARN yarn-cluster 提交我的申请。

如果 YARN 服务器的资源较少,我如何使用所有内存和工作节点 cpu?

工作节点设置可以与 YARN 设置重叠吗?

如果我的“spark.executor.memory”参数大于 YARN 内存,会​​使用还是不使用?

充分利用我的工作节点的潜力?

0 投票
1 回答
563 浏览

apache-spark - spark-submit 在未连接到 Internet 时失败

当我尝试通过使用参数 --packages 定义的 spark-submit 提交 spark 作业时,我希望 spark 首先在本地 repo 中搜索工件并在它们存在时使用它们。

我观察到每次 spark 尝试从 Internet 获取工件时,如果没有连接就会失败。

我可以强制 spark 只使用本地缓存吗?

例子 :