有没有办法将 Apache Toree 连接到远程 Spark 集群?我看到常见的命令是
jupyter toree install --spark_home=/usr/local/bin/apache-spark/
如何在无需本地安装的情况下在远程服务器上使用 spark?
有没有办法将 Apache Toree 连接到远程 Spark 集群?我看到常见的命令是
jupyter toree install --spark_home=/usr/local/bin/apache-spark/
如何在无需本地安装的情况下在远程服务器上使用 spark?
确实有一种方法可以让 Toree 连接到远程 Spark 集群。
我发现最简单的方法是克隆现有的 Toree Scala/Python 内核,并创建一个新的 Toree Scala/Python 远程内核。这样您就可以选择在本地或远程运行。
脚步:
制作现有内核的副本。在我的特定 Toree 安装中,内核的路径位于:/usr/local/share/jupyter/kernels/
,因此我执行了以下命令:
cp -pr /usr/local/share/jupyter/kernels/apache_toree_scala/ /usr/local/share/jupyter/kernels/apache_toree_scala_remote/
编辑新kernel.json
文件/usr/local/share/jupyter/kernels/apache_toree_scala_remote/
并将必要的 Spark 选项添加到__TOREE_SPARK_OPTS__
变量中。从技术上讲,only--master <path>
是必需的,但您也可以将 --num-executors、--executor-memory 等添加到变量中。
重新启动 Jupyter。
我的 kernel.json 文件如下所示:
{
"display_name": "Toree - Scala Remote",
"argv": [
"/usr/local/share/jupyter/kernels/apache_toree_scala_remote/bin/run.sh",
"--profile",
"{connection_file}"
],
"language": "scala",
"env": {
"PYTHONPATH": "/opt/spark/python:/opt/spark/python/lib/py4j-0.9-src.zip",
"SPARK_HOME": "/opt/spark",
"DEFAULT_INTERPRETER": "Scala",
"PYTHON_EXEC": "python",
"__TOREE_OPTS__": "",
"__TOREE_SPARK_OPTS__": "--master spark://192.168.0.255:7077 --deploy-mode client --num-executors 4 --executor-memory 4g --executor-cores 8 --packages com.databricks:spark-csv_2.10:1.4.0"
}
}
这是一个可能的示例,其中包含任何远程集群安装的一些直观细节。对于我的远程集群,即 Cloudera 5.9.2,这些是特定步骤。(您还可以使用此示例通过一些智能编辑安装非 Cloudera 集群。)
使用 OS/X 构建 CDH 版本(如果使用发行版则跳过):
转到https://github.com/Myllyenko/incubator-toree并克隆这个 repo
下载 Docker
设置“签名” - 我设置这个已经有一段时间了 - 你需要在上面的构建上签名。待定
'new branch git',编辑 .travis.xml、README.md 和 build.sbt 文件以将 5.10.x 更改为 5.9.2
启动 Docker,在make release
目录中 cd,构建make release
,等待,等待,签署 3 个构建
将文件复制./dist/toree-pip/toree-0.2.0-spark-1.6.0-cdh5.9.2.tar.gz
到可以访问 YARN 控制的 Spark 集群的 spark-shell 机器
如果这将是关键任务,则将您的 repo 合并、提交等到您的主 repo
火花机安装:
警告:作为最后的手段,某些步骤可能需要以 root 身份完成
安装 pip / anaconda(参见其他文档)
安装 Jupytersudo pip install jupyter
安装 toreesudo pip install toree-0.2.0-spark-1.6.0-cdh5.9.2
或使用 apache-toree 发行版
配置 Toree 以使用 Jupyter 运行(示例):
编辑并添加到~/.bash_profile
echo $PATH
PATH=$PATH:$HOME/bin
export PATH
echo $PATH
export CDH_SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark
export SPARK_HOME=/opt/cloudera/parcels/CDH-5.9.2-1.cdh5.9.2.p0.3/lib/spark
export PYTHONPATH=$PYTHONPATH:$SPARK_HOME/python:$SPARK_HOME/python/lib
export SPARK_CONF_DIR=/etc/spark/conf
export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
PATH=$PATH:$SPARK_HOME/bin
export PATH
echo $PATH
export SPARK_PKGS=$(cat << END | xargs echo | sed 's/ /,/g'
com.databricks:spark-csv_2.10:1.5.0
END
)
export SPARK_JARS=$(cat << END | xargs echo | sed 's/ /,/g'
/home/mymachine/extras/someapp.jar
/home/mymachine/extras/jsoup-1.10.3.jar
END
)
export TOREE_JAR="/usr/local/share/jupyter/kernels/apache_toree_scala/lib/toree-assembly-0.2.0-spark-1.6.0-cdh5.9.2-incubating.jar"
export SPARK_OPTS="--master yarn-client --conf spark.yarn.config.gatewayPath=/opt/cloudera/parcels --conf spark.scheduler.mode=FAIR --conf spark.executor.extraLibraryPath=/opt/cloudera/parcels/CDH-5.9.2-1.cdh5.9.2.p0.3/lib/hadoop/lib/native:/opt/cloudera/parcels/CDH-5.9.2-1.cdh5.9.2.p0.3/lib/hadoop --conf spark.driver.extraLibraryPath=/opt/cloudera/parcels/CDH-5.9.2-1.cdh5.9.2.p0.3/lib/hadoop/lib/native:/opt/cloudera/parcels/CDH-5.9.2-1.cdh5.9.2.p0.3/lib/hadoop --conf spark.yarn.am.extraLibraryPath=/opt/cloudera/parcels/CDH-5.9.2-1.cdh5.9.2.p0.3/lib/hadoop/lib/native:/opt/cloudera/parcels/CDH-5.9.2-1.cdh5.9.2.p0.3/lib/hadoop --conf spark.yarn.historyServer.address=http://yourCDHcluster.net:18088 --conf spark.default.parallelism=20 --conf spark.driver.maxResultSize=1g --conf spark.driver.memory=1g --conf spark.executor.cores=4 --conf spark.executor.instances=5 --conf spark.executor.memory=1g --packages $SPARK_PKGS --jars $SPARK_JARS"
function jti() {
jupyter toree install \
--replace \
--user \
--kernel_name="CDH 5.9.2 Toree" \
--debug \
--spark_home=${SPARK_HOME} \
--spark_opts="$SPARK_OPTS" \
--log-level=0
}
function jn() {
jupyter notebook --ip=127.0.0.1 --port=8888 --debug --log-level=0
}
如果您想要一个不同的端口来访问 Toree - 现在是您编辑的机会8888
注销您的 Toree / spark-shell 机器
ssh 回到那台机器ssh -L 8888:localhost:8888 toreebox.cdhcluster.net
(假设8888
是 bash 文件中的端口)
我希望作为用户(不是 root)您可以键入jti
将 Toree 安装到 Jupyter 中(注意:了解此步骤可能有助于将其他内核安装到 Jupyter - 边栏:@jamcom 提到了生成的文件,但此步骤会自动生成这部分。文件作为用户而不是 root 隐藏在您的主目录的树中。
作为用户,键入jn
以启动 Jupyter Notebook。等待几秒钟,直到浏览器 URL 可用,然后将该 URL 粘贴到浏览器中。
您现在运行了 Jupyter,因此请选择一个新CDH 5.9.2 Toree
版本或您安装的版本。这将启动一个新的浏览器窗口。因为你有一些 Toree 经验,所以选择类似的东西sc.getConf.getAll.sortWith(_._1 < _._1).foreach(println)
来让延迟实例化的 spark 上下文运行。当您的作业提交到集群时,请务必耐心等待,如果您的集群很忙,您可能需要等待很长时间,或者您的作业需要等待一段时间才能在集群中处理。
技巧和窍门:
我在第一次运行时遇到了一个问题,随后的运行从未遇到过这个问题。(问题问题可能已在 github 中修复)
有时,我必须杀死 YARN 上的旧 'Apache Toree' 应用程序才能启动新的 Toree。
有时,我的虚拟机可能有一个孤立的 JVM。如果您在启动 Jupyter Notebook/Toree 时遇到内存错误或意外断开连接,请使用top
. 并且......杀死额外的JVM(小心识别丢失的进程)。