问题标签 [spark-submit]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2678 浏览

scala - 在 Windows 7 上运行 spark-submit 后无法删除临时文件

我正在使用示例中的代码来运行使用 spark 的 scala 程序。程序执行得很好,但是当 StreamingContext 试图停止时,我得到了这个错误:

我没有改变任何代码。只需将其克隆到我的本地文件系统,运行sbt assembly命令生成 .jar 文件,然后使用 .jar 运行程序spark-submit

另外,我以管理员身份运行 windows cmd,所以我认为这不是权限问题。

关于导致此错误的任何线索?

感谢帮助!

0 投票
1 回答
347 浏览

java - spark startApplication 从不给我 AppId

我对 sparkSubmit 有一点问题,当我发送我的工作时,我想恢复 appId 以将其存储在某个地方。但我无法找回我的身份证。

所有 sparkLauncher 参数均有效且作业运行良好。

日志:

我的工作正常运行,一切都与“sparkLauncher.launch();”一起工作 但我不认为我可以用这种方法恢复 appId。

有人能帮我吗 ?

0 投票
1 回答
12427 浏览

apache-spark - 在 spark-submit 命令行上设置 hadoop 配置值

我们想设置aws代码中将通过以下方式完成的参数SparkContext

但是,我们有一个自定义 Spark 启动器框架,它需要通过命令行--conf参数完成所有自定义 Spark 配置。spark-submit

有没有办法“通知” SparkContext 将--conf值设置为 thehadoopConfiguration而不是它的 general SparkConf?寻找类似的东西

或者

0 投票
2 回答
15872 浏览

apache-spark - spark-submit 通过文件配置

我正在尝试通过使用spark-submit具有大量参数的spark作业来部署

spark-submit --class Eventhub --master yarn --deploy-mode cluster --executor-memory 1024m --executor-cores 4 --files app.conf spark-hdfs-assembly-1.0.jar --conf "app.conf"

我正在寻找一种将所有这些标志放在文件中以传递给以spark-submit使我的spark-submit命令简单的方法

spark-submit --class Eventhub --master yarn --deploy-mode cluster --config-file my-app.cfg --files app.conf spark-hdfs-assembly-1.0.jar --conf "app.conf"

有谁知道这是否可能?

0 投票
1 回答
1481 浏览

java - Spark 作业与纱线客户端正常工作,但与纱线集群完全不工作

在纱线中提交火花作业罐时,我遇到了一个问题。当我使用--master yarn-client提交它时,它运行良好并给了我预期的结果

命令如下;

./spark-submit --class main.MainClass --master yarn-client --driver-memory 4g --executor-memory 4g --num-executors 4 --executor-cores 2 job.jar 其他选项

但是提交到集群模式时同样不起作用;命令如下;

./spark-submit --class main.MainClass --master yarn --deploy-mode cluster --driver-memory 4g --executor-memory 4g --num-executors 4 --executor-cores 2 job.jar other-选项”

我在集群中提交时的输出

我的 yarn-site.xml 如下;

我的纱线标准错误日志是

17/03/23 03:30:40 INFO spark.SecurityManager:将视图 acls 更改为:root 17/03/23 03:30:40 INFO spark.SecurityManager:将修改 acls 更改为:ro

但是在我的火花作业没有运行之后,你可以看到这里没有显示任何错误。这个问题背后的任何想法?

0 投票
1 回答
19058 浏览

apache-spark - 如何在 spark 2.1.0 中提交 python 文件?

我目前正在运行 spark 2.1.0。我大部分时间都在 PYSPARK shell 中工作,但我需要 spark-submit 一个 python 文件(类似于 java 中的 spark-submit jar)。你如何在python中做到这一点?

0 投票
1 回答
1800 浏览

python - 在 pyspark 和 sparksubmit 中读取文本文件

假设我运行一个将文本文件作为参数的 python shell (file1.py) 。我运行它如下:

在 file1.py 里面有以下代码

我必须做哪些修改才能使 file1.py 正常运行?

但是 pyspark 对我不起作用,通常,我使用的是 spark-submit!所以在本地模式下使用 spark-submit 运行时会出现以下错误

谢谢,

0 投票
0 回答
375 浏览

apache-spark - 通过 REST api 提交 Spark 作业时出现 NullPointer 异常

我正在尝试构建一个远程提交火花作业并监视提交作业状态的应用程序。我发现http://arturmkrtchyan.com/apache-spark-hidden-rest-api描述了一个 REST API 来提交作业和获取状态。但是,当我尝试提交作业时,它也会成功提交并返回提交 ID,但在从远程托管 URL 获取 jar 时会引发 NullPointer 异常。

要求:

我在其中一个执行者上收到的错误回溯是这样的:

但是,通过 spark-submit 命令提交时,此特定作业会成功执行。执行者何时输出日志:

你能帮我弄清楚我是否在这里遗漏了什么吗?提前感谢您的所有帮助!

0 投票
4 回答
2606 浏览

apache-spark - 通过 spark-submit 向 Spark 提交 JAR 时出现 ClassNotFoundException

我正在努力使用spark-submit.

为了让事情变得更容易,我已经尝试使用这篇博文。代码是

我正在使用 Intellij Idea 2017.1 构建它并在 Spark 2.1.0 上运行。当我在 IDE 中运行它时,一切都运行良好。

然后我将它构建为一个 JAR 并尝试spark-submit如下使用

这会导致以下错误

我不知道我错过了什么......特别是考虑到它在 IDE 中按预期运行。

0 投票
0 回答
651 浏览

apache-spark - spark-submit:将属性文件添加到驱动程序类路径

我需要将我的 spark 应用程序使用的属性文件放在 spark 驱动程序类路径中。

根据文档,看起来 --driver-class-path 应该这样做,但它对我不起作用。我试着跟随。(假设 /home/myuser/ 是我的属性文件的位置)

  1. --driver-class-path /home/myuser/
  2. --driver-class-path /home/myuser/*
  3. --driver-class-path /home/myuser/,/home/myuser/*
  4. --driver-class-path /home/myuser/application.properties>

他们都没有工作。

我对 --conf "spark.driver.extraClassPath=...." 进行了同样的尝试,但没有运气。

非常感谢任何帮助。