4

我还没有设法让 Spark、Scala 和 Jupyter 合作。有人有简单的食谱吗?您使用了每个组件的哪个版本?

4

2 回答 2

4

Apache Toree 与 DataProc 的 1.0 映像兼容,目前包括 Spark 1.6.1。我曾尝试将它与包含 Spark 2.0 预览的预览图像一起使用,但未成功。要在 DataProc 主机上安装 Toree,您可以运行

sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME
于 2016-06-30T18:04:48.887 回答
0

Spark 是 Dataproc 集群的标准配置。

这是一个 gcloud 命令,您可以使用它来创建一个 Dataproc 集群(名为“dplab”),其中包括在端口 8124 上侦听的 Jupyter:

$ gcloud dataproc clusters create dplab \
 --initialization-actions \
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \
 --metadata "JUPYTER_PORT=8124" \
 --zone=us-central1-c

然后运行此命令从您的主机端口转发到集群主机:

$ gcloud compute ssh dplab-m \
 --ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c

在浏览器中打开 localhost:8124,您应该会看到 Jupyter 页面。

于 2016-06-29T17:50:26.440 回答