问题标签 [spark-submit]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2864 浏览

java - Spark with Java - 错误:无法从 JAR 加载主类

我正在 spark 中尝试一个简单的电影推荐机器学习程序。Spark 版本:2.1.1 Java 版本:java 8 Scala 版本:Scala 代码运行器版本 2.11.7 环境:windows 7

运行这些命令来启动 master 和 worker slave

我正在尝试一个非常简单的电影推荐代码:http: //blogs.quovantis.com/recommendation-engine-using-apache-spark/

我已将代码更新为:

我无法通过 intelliJ 运行它运行 mvn clean install 并将 jar 复制到文件夹不起作用。我用来运行的命令:

我看到的错误是:

如果我给出 --jar 命令,它会给出错误:

有什么想法可以提交这份工作来激发火花吗?

0 投票
1 回答
462 浏览

python - 如何从 conda 的站点包目录中添加 Python 模块到 spark-submit?

我需要运行 PySpark 应用程序 (v1.6.3)。有--py-files添加 .zip、.egg 或 .py 文件的标志。如果我有一个 Python 包/模块/usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzy,我将如何包含整个模块?

在这个目录中,我确实注意到了一些 *.py 和 *.pyc 文件。

  • fuzz.py
  • 进程.py
  • 字符串匹配器.py
  • 字符串处理.py
  • 实用程序.py

我是否必须一一包括这些?例如。

有没有更简单的方法?

  • 我应该尝试找到 .egg 或 .zip 并使用它(例如pypi)吗?
  • 我可以压缩这个目录并把它传进去吗?

任何提示或指示将不胜感激。实际上,我需要更多由 conda 管理的 Python 模块。

0 投票
1 回答
1013 浏览

apache-spark - Spark 应用程序覆盖 yarn-site.xml 配置参数

我需要在yarn-site.xml提交 Spark 应用程序时覆盖一个 Yarn 配置参数。我可以将它作为额外的参数传递给spark-submit吗?

我要覆盖的参数是yarn.nodemanager.vmem-check-enabled

0 投票
0 回答
465 浏览

kerberos - spark-submit 在本地模式下空闲

我正在尝试使用 spark-submit (Spark 1.6.0) 将 jar 测试到启用了 Kerberos 的 Cloudera 集群中。事实是,如果我启动这个命令:

在 local 或 local[*] 中,该过程在几个阶段后停止。但是,如果我使用 yarn-client 或 yarn-cluster master 模式,则该过程正确结束。该进程将一些文件读写到 HDFS 中。

此外,这些痕迹出现:

这肯定是配置问题,但事实是我不知道发生了什么。有任何想法吗?我应该更改哪些配置选项?

0 投票
2 回答
861 浏览

python-2.7 - 使用 spark-submit 强制 Python2

我正在使用 AWS EMR 创建一个 Spark 应用程序,但 spark-submit 使用 Python 3 而不是 Python 2 运行。但是当我运行 pyspark 时,它是 Python 2。

如何强制 spark-submit 使用 Python 2?

我试着做

但它没有用。

谢谢

0 投票
1 回答
1834 浏览

apache-spark - 如何在从 IntelliJ IDEA 开启调试的情况下执行 spark-submit 并附加到它?

我有一个 MapR 节点集群,我有一个安装了 CentO 和 MapR 客户端的虚拟盒 vm。我使用 IntelliJ 开发 Spark/Scala 代码。我可以在我的 MapR 客户端上执行这一行,以便从 IntelliJ 进行调试(远程调试)

所以在执行 spark-submit 之后,我需要点击 IntelliJ 中的调试按钮来启动一切。每次我想调试我的应用程序时,我都想避免在我的 Mapr 客户端 VM 上执行上面的行。所以我想知道是否可以从 IntelliJ 管理所有调试

你有什么主意吗?谢谢

0 投票
1 回答
445 浏览

python - 远程 spark-submit 无法通过 paramiko 工作

我的 spark 程序在远程 ubuntu 系统中。现在我想使用 paramiko(用于 SSH2 连接的 python 包)从 Windows 系统执行它。

windows中远程执行spark程序的程序

问题是我可以在远程ubuntu系统中执行python程序,但不能执行spark程序。有谁知道为什么?

0 投票
1 回答
7553 浏览

apache-spark - spark-submit : 将运行时变量传递给 spark 脚本

我正在使用 spark-submit 选项提交 Pyspark/SparkSQL 脚本,我需要将运行时变量(数据库名称)传递给脚本

火花提交命令:

pyspark 脚本

spark版本是:1.5.2
Python版本是:2.7.5

我正在尝试的解决方案不起作用。错误是:AttributeError:类型对象“SparkConf”没有属性“getConf”。

我正在寻找一种方法来传递运行时变量,同时通过 spark-submit 调用脚本并在脚本中使用这些变量。

0 投票
1 回答
470 浏览

java - Spark提交:使用jar找不到表或视图

当我HiveRead.java从 intellij ide 运行时,我可以成功运行并获得结果。然后我创建了 jar 文件(这是一个 maven 项目),然后我尝试从 IDE 运行,它给了我

然后我查看了 SO 答案,发现我必须添加 datanulcues 罐子,我做了这样的事情

然后我得到了这个错误

我发现我应该做的地方spark-submit。所以我确实喜欢这个

现在我得到了新类型的错误

帮我 !!:)

我已将我的复制hive-site.xml/spark/conf,启动 hive-metastore 服务(hiveserver2 --service metastore

如果有人感兴趣,这里是HiveRead.Java 代码。

0 投票
1 回答
689 浏览

java - java.lang.NoClassDefFoundError: scala 代码的 spark-sbumit 中的更好/文件/文件

当我将程序导出到 jar 文件并执行它时,我得到一个 java.lang.NoClassDefFoundError: better/files/File 错误。

我正在使用的代码如下。

提前感谢您的任何帮助

SBT

斯卡拉代码

命令行执行jar文件

错误

java.lang.Class.privateGetDeclaredMethods(Class.java:2701) 处 java.lang.Class.getDeclaredMethods0(Native Method) 处的线程“main”中的异常 java.lang.NoClassDefFoundError: Better/files/File .privateGetMethodRecursive(Class.java:3048) at java.lang.Class.getMethod0(Class.java:3018) at java.lang.Class.getMethod(Class.java:1784) at org.apache.spark.deploy.SparkSubmit$ .org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:722) 在 org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187) 在 org.apache.spark.deploy。 SparkSubmit$.submit(SparkSubmit.scala:212) at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126) at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala) :java.lang.ClassNotFoundException:更好的文件。在 java.lang.ClassLoader.loadClass(ClassLoader.java:424) 在 java.lang.ClassLoader.loadClass(ClassLoader.java:357) 的 java.net.URLClassLoader.findClass(URLClassLoader.java:381) 的文件 ... 10更多的

代码所在的树结构如下所示- 因此名为 func 的类位于 scala 目录中