2

我已按照此页面上的说明在 Windows 10、Python 3.8、databricks 版本 9.1 上安装 databricks-connect,以连接到 Azure Databricks 集群:

https://towardsdatascience.com/get-started-spark-with-databricks-and-pyspark-72572179bd03

当我运行时:

databricks-connect test

我收到此错误:

* PySpark is installed at C:\Users\brend\miniconda3\envs\try-databricks-7.3\lib\site-packages\pyspark
* Checking SPARK_HOME
* Checking java version
java version "1.8.0_311"
Java(TM) SE Runtime Environment (build 1.8.0_311-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.311-b11, mixed mode)
* Skipping scala command test on Windows
* Testing python command
The system cannot find the path specified.

它无限期地挂起。进一步调查显示它挂在对 spark-submit.cmd 的调用中(因此调用了 spark-submit2.cmd)。

我在本地没有任何其他 Spark 安装。

该问题已在 databricks 7.3 和 9.1 上复制

我可以做些什么来进一步诊断问题?

4

2 回答 2

2

我遇到了这个错误,因为我\bin在安装 Java SE 后错误地附加了 JAVA_HOME 环境变量的路径末尾。正确的 JAVA_HOME 应该类似于C:\java\Java\jre1.8.0_321,Spark 脚本将\bin自行附加到该位置。

要确定这是否适合您,您需要将打印语句添加到几个脚本中,以查看 Windows 无法在您的脚本中找到哪个程序。

从这个开始:

根据您的命令输出,转到文件夹并在文本编辑器中C:\Users\brend\miniconda3\envs\try-databricks-7.3\lib\site-packages\pyspark\bin打开脚本。spark-submit2.cmd第一行说@echo off。在此行下方,添加一个新行,说@echo on. 再次运行你的databricks-connect test,看看在它失败之前打印在屏幕上的最后一个命令是什么。

在我的情况下,我看到该脚本正在调用一堆其他脚本,最终调用C:\java\Java\jre1.8.0_321\bin\bin\java,这导致 Windows 无法找到 Java。

修复错误后,请随时删除@echo on您添加的所有语句。

于 2022-02-18T04:44:52.097 回答
0

请检查环境变量SPARK_HOME并尝试将其设置为使用 获得的路径databricks-connect get-jar-dir,不包括尾随的“/jars”。

于 2021-12-31T15:12:57.433 回答