问题标签 [spark-submit]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
105 浏览

scala - Spark submit from client machine

We have hadoop implemented on linux flatform. We use scala spark to develop models using spark machine learning libraries. I just use notepad++ and create *.scala file and execute them on data nodes. I want to know can I use eclipce or Intellij IDE from my local machine (windows machine) and connect to spark to test scala spark scripts.

0 投票
1 回答
365 浏览

apache-spark - 无法将 alluxio.security.login.username 添加到 spark-submit

我有一个火花驱动程序,我正在尝试为其设置 alluxio 用户。

我读了这篇文章:如何将 -D 参数或环境变量传递给 Spark 作业?尽管有帮助,但其中的任何方法似乎都没有奏效。

我的环境:

spark-submit 作业以 root 身份运行(在 supervisor 下),alluxio 只识别这个用户。

这是我尝试添加“-Dalluxio.security.login.username=alluxio”的地方:

  • spark-defaults.conf 中的 spark.driver.extraJavaOptions
  • 在 spark-submit 的命令行上(使用 --conf)
  • 在我的 jar 应用程序的 sparkservices conf 文件中
  • 在我的 jar 应用程序中名为“alluxio-site.properties”的新文件中

这些工作都没有为alluxio设置用户,尽管我可以很容易地在另一个也写入alluxio的(非spark)客户端应用程序中设置这个属性。

任何人都可以将此设置应用于 spark-submit 工作?

0 投票
3 回答
4202 浏览

scala - NoClassDefFoundError:在 Spark 独立集群上部署后无法初始化 XXX 类

我写了一个用 sbt 构建的 spark 流应用程序。它在本地工作得很好,但是在集群上部署之后,它抱怨我在胖 jar 中清楚地写了一个类(使用 jar tvf 检查)。以下是我的项目结构。XXX对象是spark抱怨的对象

我的提交命令:

具体报错信息:

0 投票
0 回答
711 浏览

python - 为 spark-submit 压缩 python 依赖项后导入模块不起作用

我是 Spark 世界的新手,我正在尝试使用 Spark 2.1.0 和 Python 3.5 在 Amazon EMR 集群上启动一些测试。

为了做到这一点,我使用 conda 创建了一个虚拟环境,并使用启动脚本所需的所有依赖项压缩了站点包,但我无法让 spark 在 Yarn 模式下在集群上工作。

我尝试使用以下命令启动 spark-submit:

但我得到这个导入错误

我看到 spark 在正确的目录中查找,但我不明白为什么他无法解决依赖关系。

任何帮助都非常受欢迎!在 spark 中启动 python 脚本(带有依赖项)的任何更简单的替代方法也非常受欢迎!

谢谢 !

0 投票
0 回答
990 浏览

scala - 如何在集群模式下使用 Scala 的 Process API 执行外部命令?

我想在 Spark 应用程序中使用 Scala 的Process API 运行外部命令。

当我spark-submit到一个集群时,应用程序工作正常,但--deploy-mode cluster它失败了。为什么?

我得到错误:


要执行的整个命令序列如下:

hdfs dfs -cat /data/test/zipfiletest/pgp_sample_file.PGP并且gpg单独工作正常,似乎问题出在中间的管道上。

0 投票
1 回答
660 浏览

apache-spark - 我应该在 Spark 中使用 StringBuilder 还是 StringBuffer?

我正在尝试从类中的 HDFS 读取一个普通文件,我将通过 spark-submit 执行该文件。

我有一个执行字符串操作的方法,它从这个字符串输出中创建 RDD。

在创建 RDD 之前,我正在执行以下字符串操作。

我应该对变量 valueString 使用 StringBuilder 还是 StringBuffer ?

0 投票
1 回答
162 浏览

scala - 使用 Oozie 启动 Spark 作业失败(错误 MetricsSystem)

我有一个使用spark-submit启动的 spark jar,它工作正常(读取文件、生成 RDD、存储在 hdfs 中)。但是,当我尝试在 Oozie 作业(oozie:spark-action)中启动同一个 jar 时,火花作业会失败。

当我查看日志时,出现的第一个错误是:

错误 MetricsSystem:无法实例化接收器类 org.apache.spark.metrics.sink.MetricsServlet。

此外,当我开始使用 spark 脚本时,我发现问题与saveAsText函数有关。当我在没有写入 HDFS 的情况下使用相同的 spark 作业进行午餐时,整个工作流程运行良好。

有什么建议么 ?

0 投票
1 回答
2372 浏览

apache-spark - spark-shell、依赖 jars 和类未找到异常

我正在尝试在 spark shell 上运行我的 spark 应用程序。这是我在阅读此错误数小时后尝试的方法以及更多变体……但似乎没有一个有效。

而得到的是

请问有什么想法吗?谢谢!

更新:发现罐子必须用冒号(:)分隔,而不是逗号(,)分隔,如几篇文章/文档中所述

但是,现在错误发生了变化。注意 ls -la 会找到路径,尽管以下行抱怨不退出。离奇..

更新 2:

上面的命令在 spark-shell 上产生以下内容。

罐子似乎没有被加载:(根据我在http://localhost:4040/environment/看到的

0 投票
1 回答
3015 浏览

scala - 从 spark-submit 运行应用程序时从 jar 读取输入文件

我有一个自定义分隔的输入文件,并传递给 newAPIHadoopFile 以转换为 RDD[String]。该文件位于项目资源目录下。从 Eclipse IDE 运行时,以下代码运行良好。

但是,当我在 spark-submit(使用 uber jar)上运行它时,如下所示

我收到以下错误。

请问有什么输入吗?

0 投票
3 回答
3061 浏览

pyspark - 在 Pyspark 中添加一个 python 外部库

我正在使用 pyspark (1.6),我想使用 databricks:spark-csv 库。为此,我尝试了不同的方法但没有成功

1-我尝试添加从https://spark-packages.org/package/databricks/spark-csv下载的 jar ,然后运行

但是得到了这个错误:

2-第二种方式:我从https://spark-packages.org/package/databricks/spark-csv下载了一个库 zip 文件。

并运行:

但是得到了同样的错误。3-第三种方式:

但它也不起作用,我得到了这个: