apache-spark - 通过 spark-submit 向 Spark 提交 JAR 时出现 ClassNotFoundException

Question

我正在努力使用spark-submit.

为了让事情变得更容易，我已经尝试使用这篇博文。代码是

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

object SimpleScalaSpark { 
  def main(args: Array[String]) {
    val logFile = "/Users/toddmcgrath/Development/spark-1.6.1-bin-hadoop2.4/README.md" // I've replaced this with the path to an existing file
    val conf = new SparkConf().setAppName("Simple Application").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val logData = sc.textFile(logFile, 2).cache()
    val numAs = logData.filter(line => line.contains("a")).count()
    val numBs = logData.filter(line => line.contains("b")).count()
    println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
  }
}

我正在使用 Intellij Idea 2017.1 构建它并在 Spark 2.1.0 上运行。当我在 IDE 中运行它时，一切都运行良好。

然后我将它构建为一个 JAR 并尝试spark-submit如下使用

./spark-submit --class SimpleScalaSpark --master local[*] ~/Documents/Spark/Scala/supersimple/out/artifacts/supersimple_jar/supersimple.jar

这会导致以下错误

java.lang.ClassNotFoundException: SimpleScalaSpark
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:348)
    at org.apache.spark.util.Utils$.classForName(Utils.scala:229)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:695)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

我不知道我错过了什么......特别是考虑到它在 IDE 中按预期运行。

score 1 · Accepted Answer

看起来你的罐子有问题。您可以使用以下命令检查 jar 中存在哪些类： vi supersimple.jar

如果SimpleScalaSpark类没有出现在上一个命令的输出中，这意味着你的 jar 没有正确构建。

score 1 · Accepted Answer

根据您上面的描述，您没有提供正确的类名，因此无法找到该类。

只需将SimpleSparkScala替换为SimpleScalaSpark

尝试运行以下命令：

./spark-submit --class SimpleScalaSpark --master local[*] ~/Documents/Spark/Scala/supersimple/out/artifacts/supersimple_jar/supersimple.jar

score 0 · Accepted Answer

我在我介绍的新课程中观察 ClassNotFound。我正在使用一个胖罐子。我验证了 JAR 文件在每个节点的所有副本中都包含新的类文件。（我使用常规文件系统来加载 Spark 应用程序，而不是 hdfs 或 http URL）。worker加载的jar文件没有我引入的新类。这是一个旧版本。我发现解决该问题的唯一方法是每次调用 spark-submit 脚本时为 JAR 使用不同的文件名。

score 0 · Accepted Answer

IDE 在许多方面与 shell 不同。我相信对于 shell，您需要添加 --jars 参数

spark提交在类路径中添加多个jar

apache-spark - 通过 spark-submit 向 Spark 提交 JAR 时出现 ClassNotFoundException

4 回答 4

Related

Reference