我想将Jupyter
笔记本与 SparkR 一起使用,我想安装集群Jupyter
上安装的 IR 内核。Spark
我可以找到有关使用Jupyter
with 的帮助pySpark
,但不是 with SparkR
。
我已经在Spark
集群上创建了我的AWS-EMR
集群。
我想将Jupyter
笔记本与 SparkR 一起使用,我想安装集群Jupyter
上安装的 IR 内核。Spark
我可以找到有关使用Jupyter
with 的帮助pySpark
,但不是 with SparkR
。
我已经在Spark
集群上创建了我的AWS-EMR
集群。
如果不需要使用 IRkernel,要使用 Jupyter 和 Spark,您应该考虑安装 Apache Toree 内核:https ://toree.incubator.apache.org/
此内核将允许您使用任何 Spark API 将 Jupyter notebook 与 Spark 连接。它还允许使用魔法(例如 %pyspark 或 %sparkr)在单个笔记本的不同单元格中切换语言。
使用 Toree 创建内核后,您的 kernel.json 应该包含一个 SPARK_HOME 环境,实际上它类似于:
"/opt/cloudera/parcels/SPARK2/lib/spark2": "/opt/cloudera/parcels/SPARK2/lib/spark2",
而有时:
"/opt/cloudera/parcels/SPARK2/lib/spark2": "spark-home",
尽管我为 Scala 手动修复了 SPARK_HOME 并让 Scala 内核正常工作,但我仍然无法让 SparkR 内核为我工作,但也许内核中的错误是你应该首先检查的 - 如果你使用的是 Toree。