问题标签 [spark-submit]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

524 问题

0 投票

1 回答

89 浏览

spark-submit - spark-submit 可以用作作业调度程序吗？

我有一个 spark 独立集群，没有安装其他作业调度程序。我想知道是否spark-submit可以用作 spark 和 non-spark 作业的作业调度程序（例如，不是为 Spark 编写的 scala jar 并且不使用 RDD）？

根据我的测试，spark-submit用于提交非 Spark 作业并且作业运行成功。但这是我的问题：

以下选项仍然有意义吗？ --driver-cores --driver-memory --executor-memory --total-executor-cores
如果否为 1，是否意味着spark-submit可以使用 FIFO 维护一个 spark 和 non-spark 作业队列，但它不管理 non-spark 作业的资源？
如果 2 为真，我是否应该使用另一个调度程序（例如 SGE 或 LSF）来提交非 Spark 作业？

谢谢！

spark-submit

2017-09-14T20:59:29.200

0 投票

1 回答

421 浏览

apache-spark - Spark 异步作业失败并出现错误

我正在用java编写spark代码。当我使用foreachAsync火花失败并给我java.lang.IllegalStateException: Cannot call methods on a stopped SparkContext.

在这段代码中：

它工作正常。但在这段代码中：

它返回错误。我哪里错了？

2017-09-20T16:09:51.767

0 投票

0 回答

222 浏览

apache-spark - 尝试在纱线集群上运行 spark-submit 作业，但我不断收到以下警告。我该如何解决这个问题？

我查看了类似的问题并尝试了提到的所有其他内容。当我查看 hdfs 上的 yarn-nodemanager 日志时，我看到以下可能导致错误的警告。如何修复这些警告？

纱线站点.xml 日志：

core-site.xml 日志：

hdfs-site.xml 日志：

如果我试图在错误的方向上为我的初始警告找到解决方案，请告诉我，因为应用程序继续运行但没有数据发送到 hdfs。谢谢！

apache-spark hdfs hadoop-yarn spark-submit

2017-09-21T17:13:38.350

0 投票

1 回答

1156 浏览

scala - Spark-Application 到本地目录

问题

由于 Mkdirs 未能创建 Spark 应用程序错误。我正在使用 spark 1.6.3 无法在本地目录中保存输出

更新日志

代码：

解决方案

确保整个集群都可以访问本地或特定目录。就我而言，集群或火花执行器无权访问特定目录。

scala apache-spark hortonworks-data-platform spark-submit

2017-09-25T05:28:55.750

0 投票

0 回答

550 浏览

scala - java.lang.ClassNotFoundException：java.net.URLClassLoader.findClass 的 SparkSql（未知来源）

SparkSql.scala

构建.sbt

系统使用的软件版本 spark：2.1.0 scala：2.11.8

我正在使用 IntelliJ。代码运行良好，但是当我将作业提交到我的独立集群时，它显示以下错误：

火花提交错误：

错误

scala apache-spark spark-submit

2017-09-26T08:15:35.937

0 投票

1 回答

4637 浏览

pyspark - Pyspark：使用 spark-submit 运行文件时执行 Jupyter 命令时出错

我能够运行 pyspark 并在 Jupyter 笔记本上运行脚本。但是当我尝试使用 spark-submit 从终端运行文件时，出现此错误：

执行 Jupyter 命令文件路径时出错[Errno 2] 没有这样的文件或目录

谁能帮我看看我的配置有什么问题？

我正在使用 Python 2.7 和 Spark 1.6

pyspark jupyter-notebook spark-submit

2017-09-30T23:16:49.253

0 投票

0 回答

1542 浏览

java - 将文件（配置）从 HDFS 复制到每个 spark 执行器的本地工作目录

我正在寻找如何使用 Java 将包含资源依赖项文件的文件夹从 HDFS 复制到每个 spark 执行器的本地工作目录。

起初我想使用 spark-submit 的 --files FILES 选项，但它似乎不支持任意嵌套文件的文件夹。因此，看来我必须通过将此文件夹放在共享 HDFS 路径上，以便在运行作业之前由每个执行程序正确复制到其工作目录，但尚未找出如何在 Java 代码中正确执行此操作。

或者 zip/gzip/archive 这个文件夹，放到共享的 HDFS 路径下，然后将压缩包解压到每个 Spark 执行器的本地工作目录。

感谢任何帮助或代码示例。

这是配置文件的文件夹，它们是计算的一部分，应与 spark-submit 主 jar 位于同一位置（例如，数据库文件，运行作业时使用的 jar 代码，不幸的是我无法更改此依赖关系，因为我我正在重用现有代码）。

问候，-尤里

java hadoop apache-spark hdfs spark-submit

2017-10-01T17:33:46.800

0 投票

2 回答

570 浏览

scala - 在火花代码管理 conf.setMaster() 使用配置文件自动设置本地或纱线集群

因此，在开发 spark 程序时，我使用本地机器，因此必须将 master 设置为“本地”。但是，当我提交从本地开发的程序构建的 jar 时，我显然不想使用“本地”模式。

如何在测试时使用 typesafeconfig 设置“本地”，在生产时设置“yarn-cluster”？

编辑：

基于@Shaido 的解决方案，对于 IDEA Intellij：

转到：运行->编辑配置->在应用程序配置集下： VM options = -Dspark.master=local[*]

scala apache-spark pyspark apache-spark-sql spark-submit

2017-10-06T08:10:11.953

0 投票

0 回答

40 浏览

apache-spark - Spark 和 YARN - 如何与它们一起工作

我有一个概念上的疑问。

这将是关于 YARN 和 SPARK，我有一个 2 YARN (AM) 28GB 和 4 个 CPU 和一个 56GB 的 WORKNODE 和 8 个 CPU。

我总是通过 spark-submit 选项中的 YARN yarn-cluster 提交我的申请。

如果 YARN 服务器的资源较少，我如何使用所有内存和工作节点 cpu？

工作节点设置可以与 YARN 设置重叠吗？

如果我的“spark.executor.memory”参数大于 YARN 内存，会使用还是不使用？

充分利用我的工作节点的潜力？

apache-spark hadoop-yarn spark-submit

2017-10-10T13:01:27.577

0 投票

1 回答

563 浏览

apache-spark - spark-submit 在未连接到 Internet 时失败

当我尝试通过使用参数 --packages 定义的 spark-submit 提交 spark 作业时，我希望 spark 首先在本地 repo 中搜索工件并在它们存在时使用它们。

我观察到每次 spark 尝试从 Internet 获取工件时，如果没有连接就会失败。

我可以强制 spark 只使用本地缓存吗？

例子：

apache-spark spark-submit

2017-10-12T12:21:36.423

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-submit]

Reference