scala - 如何将 Jupyter notebook scala 内核与 apache spark 集成？

Question

我已经根据这个文档安装了 Scala 内核：https ://github.com/jupyter-scala/jupyter-scala 内核在那里：

$ jupyter kernelspec list
Available kernels:
  python3     /usr/local/homebrew/Cellar/python3/3.6.4_2/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/ipykernel/resources
  scala       /Users/bobyfarell/Library/Jupyter/kernels/scala

当我尝试在笔记本中使用 Spark 时，我得到了这个：

val sparkHome = "/opt/spark-2.3.0-bin-hadoop2.7"
val scalaVersion = scala.util.Properties.versionNumberString
import org.apache.spark.ml.Pipeline

Compilation Failed
Main.scala:57: object apache is not a member of package org
 ; import org.apache.spark.ml.Pipeline
              ^

我试过了：

将 SPARK_HOME 和 CLASSPATH 设置为 $SPARK_HOME/jars 的位置
在 kernel.json 中设置指向 $SPARK_HOME/jars 的 -cp 选项
在导入之前设置 classpath.add 调用

这些都没有帮助。请注意我不想使用 Toree，我想在 Jupyter 中使用独立的 spark 和 Scala 内核。这里也报告了一个类似的问题：https ://github.com/jupyter-scala/jupyter-scala/issues/63

score 1 · Accepted Answer

您似乎没有遵循 jupyter-scala使用 Spark的说明。您必须使用特殊导入将 spark 加载到内核中。

scala - 如何将 Jupyter notebook scala 内核与 apache spark 集成？

1 回答 1

Related

Reference