问题标签 [spark-submit]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
192 浏览

apache-spark - pentaho 数据集成 spark-submit 与 EMR

我一直在阅读文档以在 pentaho DI 上配置 spark-submit 条目,示例主要用于 CDH y HDP,但它如何用于 EMR?我的具体问题与 EMR 集群的“临时”性质有关。根据我的红色,您需要将 *-site.xml 文件从集群复制到 PDI 服务器,但是随着每个新集群的主机名发生变化,并且可能 *-site.xml 文件也会发生变化,所以每个自动运行或您的工作,您需要找出您的集群主机名,然后将 *-site.xml 文件 scp 到 PDI,对吗?有人用 EMR 在 PDI 中配置了 spark-submit 条目吗?

0 投票
1 回答
397 浏览

java - Scala、SparkLauncher 无法运行程序“/etc/spark/conf.cloudera.CD-SPARK_ON_YARN-brkvSOzr/yarn-conf/topology.py”

下面的代码构建为 jar 并通过 putty 使用 sparkSubmit 命令执行。它工作正常。

但是当我通过 SparkLauncher 运行相同的代码时,它会在下面引发错误,Master - Yarn-Cluster Spark - 1.6

0 投票
3 回答
3070 浏览

apache-spark - AWS EMR 在集群模式下使用 spark 步骤。应用程序 application_finished 失败状态

我正在尝试使用 AWS Cli 启动集群。我使用以下命令:

集群创建成功。然后我添加这个命令:

一段时间后,该步骤失败。这是日志文件:

在本地(在 SandBox Hortonworks HDP 2.5 上)我运行:

一切正常。我已经阅读了与我的问题相关的内容,但我无法弄清楚。

更新

签入Application Master,我收到此错误:

我将提到的路径“s3://tracceale/params/configS3.txt”从 S3 传递给函数“fromFile”,如下所示:

我该如何解决?提前致谢。

0 投票
3 回答
2308 浏览

java - Apache Spark——使用 spark-submit 抛出 NoSuchMethodError

要将 Spark 应用程序提交到集群,他们的文档说明:

为此,请创建一个包含您的代码及其依赖项的程序集 jar(或“uber”jar)。sbt 和 Maven 都有汇编插件。创建程序集 jar 时,将 Spark 和 Hadoop 列为提供的依赖项;这些不需要捆绑,因为它们是由集群管理器在运行时提供的。-- http://spark.apache.org/docs/latest/submitting-applications.html

因此,我将 Apache Maven Shade 插件添加到我的pom.xml文件中。(版本 3.0.0)
我将 Spark 依赖项的范围转换为provided. (版本 2.1.0)

(我还添加了 Apache Maven Assembly Plugin 以确保我在运行时将所有依赖项包装在 jar 中mvn clean package。我不确定它是否真的有必要。)


就这样spark-submit失败了。它为我拥有的依赖项抛出了NoSuchMethodError一个(请注意,在 IntelliJ 中编译时,代码在本地实例中工作,假设provided已删除)。

引发错误的代码行无关紧要——它只是我的 main 方法中的第一行,它创建了StopwatchGoogle Guava 实用程序的一部分。(版本 21.0)

其他在线解决方案表明它与 Guava 的版本冲突有关,但我对这些建议还没有任何运气。任何帮助将不胜感激,谢谢。

0 投票
0 回答
1354 浏览

apache-spark - 在 spark python 中导入外部模块

我有一份 pyspark 应用程序的 EMR 工作。我的代码包括一些外部包和一些用于查找的文件。

当我在本地框中尝试相同时,这是文件系统的层次结构。

更多详细信息:
当我运行 WorkCount.py 时,它会在其中导入 temp.py。files 文件夹包含一些模型文件。temp.py 在内部使用这些模型文件。在本地框中,我将所有代码保存在一个地方并运行该作业,它在那里工作正常
它在 localbox 中工作正常,但是当我在集群中运行时失败

有人能告诉我我应该如何在 EMR 集群中组织它,这样我才能顺利运行它。

0 投票
1 回答
1311 浏览

java - spark提交java.lang.NullPointerException错误

我正在尝试通过 windows 上的 spark 提交我的 spark-mongo 代码 jar。我在独立模式下使用 spark。我在同一台机器上配置了 spark master 和两个 worker。我想用一个主人和两个工人来执行我的 jar。我正在尝试执行以下命令:spark-submit --master spark://localhost:7077 --deploy-mode cluster --executor-memory 5G --class spark.mongohadoop.testing3 G:\sparkmon1.jar

我面临以下错误:

我已经在 env 中设置了 winutil 路径。为什么我收到此错误,解决方案是什么?

0 投票
1 回答
2109 浏览

java - Java Guava Resources.getResource 在远处的 jar 中不起作用

我使用包含属性文件的 maven assemble 创建了一个远 jar。它适用于我的 IDE。但是,在我完成package所有操作后,我的应用程序无法正常工作。

我有我所有的属性文件src/main/resources,我可以通过使用来确认jar tf farjar.jar我在根文件夹中看到了属性文件

但是,当我从那个胖 jar 运行我的程序时,我得到了这个错误

这是我的pom。

这是我使用番石榴的代码。

0 投票
3 回答
4133 浏览

java - Spark + Kafka 流式处理 NoClassDefFoundError kafka/serializer/StringDecoder

我正在尝试从我的 kafka 生产者发送消息并将其流式传输到 spark 流中。但是当我在 spark submit 上运行我的应用程序时,我收到了以下错误。

错误

应用代码如下:

主.java

Pom.xml

找不到此错误的解决方案。任何帮助,将不胜感激。

0 投票
2 回答
1065 浏览

scala - SLF4J:未检测到项目中的 simplelogger.properties

我正在为我的//项目使用Grizzled-SLF4J(包装器) 。属性文件已放置在. 但是当我使用. 无论我所做的更改都没有得到反映,并且似乎使用了一些属性值(在我的情况下仅显示/消息)。SLF4JSparkScalaSBTsimplelogger.propertiessrc/main/resourcesproperty filespark-submitproperty filedefaultWARNERROR

这是我的build.sbt

simplelogger.properties

我在这里错过了什么吗?

PS:我确实检查了Jar并且simplelogger.properties在根目录中可用

0 投票
1 回答
1564 浏览

apache-spark - Pyspark UDF 广播变量未定义仅在由单独脚本导入时

下面是两个在 pyspark 中调用 UDF 的最小工作示例脚本。UDF 依赖于广播字典,它使用该字典将列映射到新列。产生正确输出的完整工作示例如下:

但是,如果在单独的脚本中导入并使用该函数,则表示未定义映射:

谁能解释为什么会这样?这是当前代码的真实版本中的主要障碍,该代码导入了许多依赖于来自外部文件的许多 udf 的函数。是否存在我不理解的命名空间问题?

非常感谢。