问题标签 [spark-submit]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

524 问题

0 投票

1 回答

105 浏览

scala - Spark submit from client machine

We have hadoop implemented on linux flatform. We use scala spark to develop models using spark machine learning libraries. I just use notepad++ and create *.scala file and execute them on data nodes. I want to know can I use eclipce or Intellij IDE from my local machine (windows machine) and connect to spark to test scala spark scripts.

2017-04-20T11:51:28.257

0 投票

1 回答

365 浏览

apache-spark - 无法将 alluxio.security.login.username 添加到 spark-submit

我有一个火花驱动程序，我正在尝试为其设置 alluxio 用户。

我读了这篇文章：如何将 -D 参数或环境变量传递给 Spark 作业？尽管有帮助，但其中的任何方法似乎都没有奏效。

我的环境：

spark-submit 作业以 root 身份运行（在 supervisor 下），alluxio 只识别这个用户。

这是我尝试添加“-Dalluxio.security.login.username=alluxio”的地方：

spark-defaults.conf 中的 spark.driver.extraJavaOptions
在 spark-submit 的命令行上（使用 --conf）
在我的 jar 应用程序的 sparkservices conf 文件中
在我的 jar 应用程序中名为“alluxio-site.properties”的新文件中

这些工作都没有为alluxio设置用户，尽管我可以很容易地在另一个也写入alluxio的（非spark）客户端应用程序中设置这个属性。

任何人都可以将此设置应用于 spark-submit 工作？

apache-spark spark-submit alluxio

2017-04-23T13:46:39.977

0 投票

3 回答

4202 浏览

scala - NoClassDefFoundError：在 Spark 独立集群上部署后无法初始化 XXX 类

我写了一个用 sbt 构建的 spark 流应用程序。它在本地工作得很好，但是在集群上部署之后，它抱怨我在胖 jar 中清楚地写了一个类（使用 jar tvf 检查）。以下是我的项目结构。XXX对象是spark抱怨的对象

我的提交命令：

具体报错信息：

scala apache-spark deployment spark-streaming spark-submit

2017-04-26T03:17:54.040

0 投票

0 回答

711 浏览

python - 为 spark-submit 压缩 python 依赖项后导入模块不起作用

我是 Spark 世界的新手，我正在尝试使用 Spark 2.1.0 和 Python 3.5 在 Amazon EMR 集群上启动一些测试。

为了做到这一点，我使用 conda 创建了一个虚拟环境，并使用启动脚本所需的所有依赖项压缩了站点包，但我无法让 spark 在 Yarn 模式下在集群上工作。

我尝试使用以下命令启动 spark-submit：

但我得到这个导入错误

我看到 spark 在正确的目录中查找，但我不明白为什么他无法解决依赖关系。

任何帮助都非常受欢迎！在 spark 中启动 python 脚本（带有依赖项）的任何更简单的替代方法也非常受欢迎！

谢谢！

python python-3.x apache-spark amazon-emr spark-submit

2017-05-03T13:01:07.847

0 投票

0 回答

990 浏览

scala - 如何在集群模式下使用 Scala 的 Process API 执行外部命令？

我想在 Spark 应用程序中使用 Scala 的Process API 运行外部命令。

当我spark-submit到一个集群时，应用程序工作正常，但--deploy-mode cluster它失败了。为什么？

我得到错误：

要执行的整个命令序列如下：

hdfs dfs -cat /data/test/zipfiletest/pgp_sample_file.PGP并且gpg单独工作正常，似乎问题出在中间的管道上。

scala hadoop apache-spark hdfs spark-submit

2017-05-12T10:26:08.250

0 投票

1 回答

660 浏览

apache-spark - 我应该在 Spark 中使用 StringBuilder 还是 StringBuffer？

我正在尝试从类中的 HDFS 读取一个普通文件，我将通过 spark-submit 执行该文件。

我有一个执行字符串操作的方法，它从这个字符串输出中创建 RDD。

在创建 RDD 之前，我正在执行以下字符串操作。

我应该对变量 valueString 使用 StringBuilder 还是 StringBuffer ？

apache-spark stringbuilder stringbuffer spark-submit

2017-05-14T07:33:03.557

0 投票

1 回答

162 浏览

scala - 使用 Oozie 启动 Spark 作业失败（错误 MetricsSystem）

我有一个使用spark-submit启动的 spark jar，它工作正常（读取文件、生成 RDD、存储在 hdfs 中）。但是，当我尝试在 Oozie 作业(oozie:spark-action)中启动同一个 jar 时，火花作业会失败。

当我查看日志时，出现的第一个错误是：

错误 MetricsSystem：无法实例化接收器类 org.apache.spark.metrics.sink.MetricsServlet。

此外，当我开始使用 spark 脚本时，我发现问题与saveAsText函数有关。当我在没有写入 HDFS 的情况下使用相同的 spark 作业进行午餐时，整个工作流程运行良好。

有什么建议么？

scala apache-spark oozie spark-submit

2017-05-15T09:58:55.137

0 投票

1 回答

2372 浏览

apache-spark - spark-shell、依赖 jars 和类未找到异常

我正在尝试在 spark shell 上运行我的 spark 应用程序。这是我在阅读此错误数小时后尝试的方法以及更多变体……但似乎没有一个有效。

而得到的是

请问有什么想法吗？谢谢！

更新：发现罐子必须用冒号（:）分隔，而不是逗号（，）分隔，如几篇文章/文档中所述

但是，现在错误发生了变化。注意 ls -la 会找到路径，尽管以下行抱怨不退出。离奇..

更新 2：

上面的命令在 spark-shell 上产生以下内容。

罐子似乎没有被加载:(根据我在http://localhost:4040/environment/看到的

apache-spark spark-submit

2017-05-15T18:24:43.843

0 投票

1 回答

3015 浏览

scala - 从 spark-submit 运行应用程序时从 jar 读取输入文件

我有一个自定义分隔的输入文件，并传递给 newAPIHadoopFile 以转换为 RDD[String]。该文件位于项目资源目录下。从 Eclipse IDE 运行时，以下代码运行良好。

但是，当我在 spark-submit（使用 uber jar）上运行它时，如下所示

我收到以下错误。

请问有什么输入吗？

scala apache-spark executable-jar spark-submit

2017-05-16T14:33:58.290

0 投票

3 回答

3061 浏览

pyspark - 在 Pyspark 中添加一个 python 外部库

我正在使用 pyspark (1.6)，我想使用 databricks:spark-csv 库。为此，我尝试了不同的方法但没有成功

1-我尝试添加从https://spark-packages.org/package/databricks/spark-csv下载的 jar ，然后运行

但是得到了这个错误：

2-第二种方式：我从https://spark-packages.org/package/databricks/spark-csv下载了一个库 zip 文件。

并运行：

但是得到了同样的错误。3-第三种方式：

但它也不起作用，我得到了这个：

pyspark spark-submit

2017-05-19T13:38:08.380

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-submit]

Reference