问题标签 [databricks-connect]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
52 浏览

github - 是否可以使用 Databricks-Connect 和 Github 从 IDE 更改我的 Azure Databricks 笔记本?

我的目标是使用 IDE 而不是在 Databricks 中更改我的 Azure Databricks 笔记本。同时实现某种版本控制。

阅读 Databricks-Connect 文档,这看起来并不支持这种功能。想知道是否有其他人尝试过这样做并取得了任何成功?

0 投票
0 回答
171 浏览

scala - Databricks-Connect 错误 - SparkClientManager:无法获取 SparkClient

我想在我的本地机器上设置 Databricks-Connect,以便我可以远程使用 Databricks 集群。我首先通过运行配置客户端

databricks-connect configure

按照这里的指示。但是,当我尝试通过执行来测试连接时

databricks-connect test

我在屏幕截图中得到了错误

错误1 ​​错误 2 错误3

(注意:由于“看起来像垃圾邮件”标志,无法插入代码)

该错误表明我指定了一个与任何现有集群都不对应的集群 ID,尽管它是正确的。我仔细检查了我的 Azure Databricks 群集配置详细信息(在高级选项 -> 标记下)。

在我试图找到解决方案的过程中,我在Databricks 论坛5638981660511139上遇到了类似的问题,但由于安装的 Databricks Runtime 不同,这些问题并没有多大帮助。

额外细节:

  1. 我正在运行 Ubuntu 18.04 并在安装了 Python 3.7.x 和 Java openjdk-8-jre-headless (1.8.0_292) 的虚拟环境中进行设置。

  2. 我已经设置了一个 Microsoft Azure Databricks 工作区,其中包含一个运行 Databricks Runtime 7.3 LTS(包括 Apache Spark 3.0.1、Scala 2.12)的集群。根据此处的 Databricks 文档,此运行时运行 Python 3.7.5,应该与我的兼容。

我一直在努力解决这个问题,所以任何帮助将不胜感激!

0 投票
0 回答
270 浏览

pycharm - Databricks:远程执行非火花代码

使用 databricks-connect,我可以在集群上运行 spark-code。官方文档(https://docs.microsoft.com/en-us/azure/databricks/dev-tools/databricks-connect)也只提到了 spark-code。如果我执行“普通”python 代码,它不会在 Databricks 上运行,而是在我的本地环境中运行。

据我所知,在浏览器中的 databricks 笔记本中工作时,我还可以运行在驱动程序节点上执行的“普通”python 代码。

有没有办法将外部 IDE(例如 PyCharm)连接到 Databricks,这样所有代码都在集群上执行,就好像我在笔记本中的 Databricks 中工作一样?

编辑:为了更清楚,我知道如何使用 databricks connect 将 PyCharm 连接到 databricks,我可以以这种方式运行 pyspark 代码。我想做的是在数据块上运行非火花代码(例如,在将火花数据帧转换为熊猫数据帧后,在一些数据上训练 sklearn 模型)。据我对 databricks-connect 的理解,所有非火花代码都将在我的本地计算机上运行。但是,在 databricks-notebooks 中,它在驱动程序上运行,并且正在寻找一种使用 databricks-connect 执行此操作的方法。

0 投票
0 回答
149 浏览

databricks - 使用 Databricks-connect 时未发现模块错误

我使用 EGG 文件在集群上以及本地计算机上安装了自定义库。我使用 databricks connect 将我的 IDE 连接到我的集群。当我尝试导入模块时,它给了我使用 IDE 执行时找不到模块的错误。使用 databricks 笔记本执行时,相同的代码可以完美运行。我还尝试将诸如 httpagentparser 之类的公共模块安装到集群上,而我的本地计算机在通过 databricks 连接在 IDE 上执行时仍然找不到这些已安装的模块,但可以在笔记本电脑上完美运行。我在本地安装了 httpagentparser,并且在单独测试时运行良好。

0 投票
0 回答
44 浏览

apache-spark - Pyspark 驱动程序没有选择我的环境配置

我在一台Windows机器上。运行使用 databricks cli 设置的 pyspark。

收到此错误:

它说 pyspark 驱动程序是 3.9,但我的 PYSPARK_DRIVER_PYTHON 指向的是 3.8 版本的 python。

PYSPARK_DRIVER_PYTHON 指向 3.8

为什么我的 pyspark 驱动程序仍在运行 3.9?

谢谢你。

0 投票
1 回答
112 浏览

scala - 使用 databricks-connect 运行 Scala 模块

我已尝试按照此处的说明设置与 IntelliJ 的数据块连接。我的理解是我可以从 IDE 运行代码,它将在 databricks 集群上运行。

我从 miniconda 环境中添加了 jar 目录,并将其移动到所有 maven 依赖项之上File -> Project Structure...

但是,我认为我做错了什么。当我尝试运行我的模块时,出现以下错误:

259 GB 的系统内存让我觉得它试图在我的笔记本电脑而不是 dbx 集群上本地运行?我不确定这是否正确以及我能做些什么来让它正常运行......

任何帮助表示赞赏!

0 投票
0 回答
110 浏览

databricks - 我可以将 Databricks Connect 与配置了端口 443 的集群一起使用吗?

我的公司正在使用 Azure Government 中托管的 Databricks。集群的默认端口是 443,据我所知是 HTTPS。

在配置我的环境变量并运行 databricks-connect test 之后,如果集群处于终止状态,则该命令成功启动集群,但一旦开启测试失败。

部分错误信息:

您指定的端口已被使用或无效。端口:Databricks Connect 连接的端口

  • 默认 Databricks 连接端口为 15001
  • 获取当前值:spark.conf.get("spark.databricks.service.port")
  • 通过 conf 设置:spark.conf.set("spark.databricks.service.port", ")

当我手动将集群的端口更改为 15001 并相应地设置端口环境变量时,databricks-connect 测试成功。

我不是网络安全方面的专家。有没有办法可以将集群保留在端口 443 上并仍然使用 Databricks Connect?

0 投票
1 回答
398 浏览

java - 如何解决java spark中的“线程“main”java.lang.Error中的异常:未解决的编译问题:SparkSession无法解析为类型”

我在 Azure Windows 虚拟机中安装了“VScode、jdk 8、python 3.8 和 databricks-connect==8.1.*” 。之后,我创建了一个 databricks 集群并使用 cmd配置了 Databricks-connect 。设置完所有路径变量后,我按照 Java 代码执行:

'''

==================================================== ======= 在 VScode 终端内我得到低于输出'''

'''

当我在配置 databricks 连接后在 cmd 中运行“databricks-connect 测试”时。我得到以下输出... [1]:https ://i.stack.imgur.com/p5WG6.png

0 投票
1 回答
69 浏览

databricks - Databrick 连接到 ADLS Gen2 文本文件

我正在使用数据块来访问我的 ADLS Gen2 容器。

我正在使用以下代码并更改我需要更改的内容。

当我运行脚本时,出现以下错误

我在我的应用程序注册中注册了数据块,并将名称添加到我的 ADLS 角色中作为存储 Blob 数据贡献者。

我不确定为什么我的凭据不允许我提取我的 ADLS 帐户中的文本文件。

任何帮助表示赞赏!

0 投票
1 回答
793 浏览

databricks - databricks-connect 无法连接到 Databricks 集群运行时 8.4

我有以下设置

Databricks 集群:

客户端:

当我运行databricks-connect test测试连接时,我收到此错误消息

根据错误信息,我了解到客户端和服务器版本存在兼容性问题。但是,我已经在使用最新的客户端。

  1. 这是否意味着客户端不添加对服务器版本 8.4 的支持?
  2. 有什么办法可以规避这个问题吗?