“spark-submit”的相关标签问题

0 投票

1 回答

3392 浏览

hadoop - spark Yarn模式如何从spark-submit获取applicationId

当我使用带有 master yarn 和部署模式集群的 spark-submit 提交 spark 作业时，它不会打印/返回任何 applicationId，一旦作业完成，我必须手动检查 MapReduce jobHistory 或 spark HistoryServer 以获取作业详细信息。
我的集群被许多用户使用，在 jobHistory/HistoryServer 中发现我的工作需要花费大量时间。

有没有办法配置spark-submit返回applicationId？

注意：我发现了许多类似的问题，但他们的解决方案使用在驱动程序代码中检索 applicationId，sparkcontext.applicationId并且如果master yarn and deploy-mode cluster驱动程序也作为 mapreduce 作业的一部分运行，则将任何日志或 sysout 打印到远程主机日志。

2017-05-26T20:10:20.947

0 投票

2 回答

109 浏览

scala - ibm bluemix spark 提交

我是 Bluemix 的新手。我已经创建了 Apache Spark 服务，并尝试通过 spark submit 提交一个简单的 hello-world jar。（我使用此链接休闲：https ://console.ng.bluemix.net/docs/services/AnalyticsforApacheSpark/index-gentopic3.html#genTopProcId4

提交 jar 后，日志文件显示：

提交作业结果：{“action”：“CreateSubmissionResponse”，
“message”：“驱动程序成功提交为 driver-20170602xxxxxxxxxxx”，“serverSparkVersion”：“2.0.2”，
“submissionId”：“driver-20170602xxxxxxxxxxx”，“success” ：真的 }

提交 ID：driver-20170602xxxxxxxxxxx 提交的作业：driver-driver-20170602xxxxxxxxxxx 轮询作业状态。投票#1。获取状态====失败状态输出========================================== ============ 错误：作业失败。spark-submit 日志文件：spark-submit_1496403637550663675.log 在 stdout_1496403637550663675 处查看作业的 stdout 日志在 stderr_1496403637550663675 处查看作业的 stderr 日志

在这种情况下可能会出现什么问题？

我还看到人们谈论笔记本和木星来访问/运行火花作业。但我在仪表板上没有看到 notebook /Jupiter 选项。

感谢您的投入

标准输出上的卷曲，即（https://spark.eu-gb.bluemix.net/tenant/data/workdir/driver-20170614074046xxxxxxxxx277e6a/stdout）是：“没有定义额外的配置”

但我在 stderr 上发现了以下错误消息：

log4j:ERROR 找不到键 log4j.appender.FILE 的值 log4j:ERROR 无法实例化名为“FILE”的附加程序。错误 deploy.ego.EGOClusterDriverWrapper：未捕获的异常：java.nio.file.NoSuchFileException：/gpfs/fs01/user/sd74-836f4292ca6442xxxxxxxx/data/e717e66fe44f5a1ea7eec81cbd/hellospark_2.11-1.0.jar 在 sun.nio.fs.UnixException.translateToIOException (UnixException.java:98) 在 sun.nio.fs.UnixException.rethrowAsIOException(UnixException.java:114) 在 sun.nio.fs.UnixException.rethrowAsIOException(UnixException.java:119) 在 sun.nio.fs.UnixCopyFile。 copy(UnixCopyFile.java:538) 在 sun.nio.fs.UnixFileSystemProvider.copy(UnixFileSystemProvider.java:265) 在 java.nio.file.Files.copy(Files.java:1285) 在 org.apache.spark.util .Utils$.org$apache$spark$util$Utils$$copyRecursive(Utils.

scala apache-spark ibm-cloud spark-submit

2017-06-02T13:15:57.230

0 投票

1 回答

1497 浏览

java - 将 Python 文件和 Java jar 提交到 Spark- 错误：JAR 中没有设置主类；请用 --class 指定一个

我必须使用 py4j 执行带有用户定义的 Java 函数的 python 文件。我正在使用 spark-submit 命令将 pyfiles 和 jars 发送给执行程序。我为 Py4j 编写的代码将处理其余部分。

但是我收到一个错误

错误：JAR 中没有设置主类；请用 --class 指定一个

命令如下：

我的问题是我没有要指定的 Java 类。我有 python 文件，那么我应该具体指定什么？

我还使用了 --jars、--conf spark.executor.extraClassPath、--driver-class-path 选项将 jar 发送到执行器，因为它包含用户定义的函数。

简单地提到 --jars 或 --driver-class-path 没有做这项工作，所以尝试了第三个参数，这引发了错误。

提前致谢。

java python jar pyspark spark-submit

2017-06-07T08:40:21.230

0 投票

0 回答

1669 浏览

hadoop - 通过 YARN 客户端提交 Spark 应用程序

我正在使用org.apache.spark.deploy.yarn.Client（Spark 2.1.0）提交火花纱线应用程序（SparkPi 示例）。以下是相关的行：

这似乎正在工作，并且 Spark 应用程序出现在 YARN RM UI 中并成功。但是，容器日志显示暂存目录的 URL 被拾取为 SPARK_YARN_STAGING_DIR -> file:/home/{current user}/.sparkStaging/application_xxxxxx. 浏览org.apache.spark.deploy.yarn.Client显示它的可能原因是暂存目录的基本路径未正确拾取。当登台目录被清除时，基本路径应该hdfs://localhost:9000/user/{current user}/不是file:/home/{current user}/由日志中出现的以下错误所确认的：

当使用 spark-submit 时，这一切都很好，因为我相信它正确设置了所有必需的环境变量。

我也尝试过设置sparkConf.set("spark.yarn.stagingDir", "hdfs://localhost:9000/user/{current user}");但无济于事，因为它会导致其他一些错误，例如 hdfs 未被识别为有效文件系统。

hadoop apache-spark hadoop-yarn spark-submit

2017-06-08T19:36:32.453

0 投票

1 回答

240 浏览

apache-spark - 通过用户界面提交 Spark 作业

有什么方法可以在某些 UI 上通过 YARN 甚至通过 IntelliJ 方式编写的应用程序提交 Spark 作业。

公司模式提交工作的最佳解决方法。

我们使用的是安装了 Yarn、Hadoop、Spark 的 Apache Ambari。泰:)

apache-spark intellij-idea spark-streaming hadoop-yarn spark-submit

2017-06-12T13:49:33.187

0 投票

2 回答

4455 浏览

scala - 值拆分不是 (String, String) 的成员

我正在尝试从 Kafka 读取数据并通过 Spark RDD 存储到 Cassandra 表中。

编译代码时出错：

下面的代码：当我通过交互式手动运行代码时，spark-shell它工作正常，但是在编译代码时spark-submit出现错误。

scala apache-spark apache-kafka spark-streaming spark-submit

2017-06-13T10:00:42.677

0 投票

3 回答

949 浏览

scala - Scala Spark 2.0 代码上的运行时错误

我有以下代码：

当它执行时，我收到以下错误：

代码编译和构建就好了。以下是依赖项：

我正在执行这样的代码：

我用 Spark 1.6 运行了这一切。我正在尝试升级到 Spark 2，但缺少一些东西。

scala apache-spark sbt spark-submit

2017-06-15T18:25:14.280

0 投票

2 回答

4945 浏览

scala - 无法将本地 jar 提交到 spark 集群：java.nio.file.NoSuchFileException

来自 spark-worker 的日志：

知道为什么吗？谢谢

更新

下面的命令对吗？

更新

我想我对 spark 以及为什么我遇到这个问题和spark-submit error: ClassNotFoundException有了更多的了解。关键是这里虽然用了REST这个词，但是REST URL: spark://127.0.1.1:6066 (cluster mode)提交后应用jar并不会上传到集群，这和我的理解不一样。所以，spark集群找不到应用jar，也无法加载主类。

我将尝试找到如何设置火花集群并使用集群模式提交申请。不知道客户端模式是否会为流式作业使用更多资源。

scala apache-spark kubernetes spark-submit

2017-06-20T20:49:12.760

0 投票

1 回答

5005 浏览

scala - 火花提交错误：ClassNotFoundException

构建.sbt

计数器/build.sbt

计数器.scala：

跑

错误：

任何想法？谢谢

更新

我在这里遇到了问题Failed to submit local jar to spark cluster: java.nio.file.NoSuchFileException。现在，我将 jar 复制到spark-2.1.0-bin-hadoop2.7/bin然后运行./spark-submit --class "Counter" --master spark://10.1.204.67:6066 --deploy-mode cluster file://Counter-assembly-0.1.0.jar

火花簇是 2.1.0

但是 jar 是在 2.1.1 和 Scala 2.11.0 中组装的。

scala apache-spark spark-submit

2017-06-21T19:07:43.880

0 投票

1 回答

3049 浏览

scala - HiveContext - 无法访问在 hive 中映射为外部表的 hbase 表

我正在尝试使用 Spark 中的 HiveContext 访问在 hive 中映射的 hbase 表。但我得到了ClassNotFoundException例外.. 下面是我的代码。

我收到以下错误..

17/06/22 07:17:30 错误日志：initSerDe 中的错误：java.lang.ClassNotFoundException 类 org.apache.hadoop.hive.hbase.HBaseSerDe 未找到 java.lang.ClassNotFoundException：类 org.apache.hadoop.hive .hbase.HBaseSerDe 在 org.apache.hadoop.hive.metastore.MetaStoreUtils.getDeserializer(MetaStoreUtils.java:385) 的 org.apache.hadoop.hive.metastore.MetaStoreUtils.getDeserializer(MetaStoreUtils.java:385) 的 org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:2120) 中找不到.hadoop.hive.ql.metadata.Table.getDeserializerFromMetaStore(Table.java:276) 在 org.apache.hadoop.hive.ql.metadata.Table.getDeserializer(Table.java:258) 在 org.apache.hadoop.hive .ql.metadata.Table.getCols(Table.java:605) at org.apache.spark.sql.hive.client.ClientWrapper$$anonfun$getTableOption$1$$anonfun$3.apply(ClientWrapper.scala:342) at org .apache.spark.sql.hive。client.ClientWrapper$$anonfun$getTableOption$1$$anonfun$3.apply(ClientWrapper.scala:337) at scala.Option.map(Option.scala:145) at org.apache.spark.sql.hive.client.ClientWrapper$ $anonfun$getTableOption$1.apply(ClientWrapper.scala:337) 在 org.apache.spark.sql.hive.client.ClientWrapper$$anonfun$getTableOption$1.apply(ClientWrapper.scala:332) 在 org.apache.spark。 sql.hive.client.ClientWrapper$$anonfun$withHiveState$1.apply(ClientWrapper.scala:290) 在 org.apache.spark.sql.hive.client.ClientWrapper.liftedTree1$1(ClientWrapper.scala:237)apache.spark.sql.hive.client.ClientWrapper$$anonfun$getTableOption$1.apply(ClientWrapper.scala:332) at org.apache.spark.sql.hive.client.ClientWrapper$$anonfun$withHiveState$1.apply(ClientWrapper .scala:290) 在 org.apache.spark.sql.hive.client.ClientWrapper.liftedTree1$1(ClientWrapper.scala:237)apache.spark.sql.hive.client.ClientWrapper$$anonfun$getTableOption$1.apply(ClientWrapper.scala:332) at org.apache.spark.sql.hive.client.ClientWrapper$$anonfun$withHiveState$1.apply(ClientWrapper .scala:290) 在 org.apache.spark.sql.hive.client.ClientWrapper.liftedTree1$1(ClientWrapper.scala:237)

任何人都可以帮助我需要导入哪个类来读取 hbase 表。

scala apache-spark hbase hivecontext spark-submit

2017-06-22T11:26:22.690

问题标签 [spark-submit]

Reference