问题标签 [databricks-connect]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
github - 是否可以使用 Databricks-Connect 和 Github 从 IDE 更改我的 Azure Databricks 笔记本?
我的目标是使用 IDE 而不是在 Databricks 中更改我的 Azure Databricks 笔记本。同时实现某种版本控制。
阅读 Databricks-Connect 文档,这看起来并不支持这种功能。想知道是否有其他人尝试过这样做并取得了任何成功?
scala - Databricks-Connect 错误 - SparkClientManager:无法获取 SparkClient
我想在我的本地机器上设置 Databricks-Connect,以便我可以远程使用 Databricks 集群。我首先通过运行配置客户端
databricks-connect configure
按照这里的指示。但是,当我尝试通过执行来测试连接时
databricks-connect test
我在屏幕截图中得到了错误
(注意:由于“看起来像垃圾邮件”标志,无法插入代码)
该错误表明我指定了一个与任何现有集群都不对应的集群 ID,尽管它是正确的。我仔细检查了我的 Azure Databricks 群集配置详细信息(在高级选项 -> 标记下)。
在我试图找到解决方案的过程中,我在Databricks 论坛、56389816和60511139上遇到了类似的问题,但由于安装的 Databricks Runtime 不同,这些问题并没有多大帮助。
额外细节:
我正在运行 Ubuntu 18.04 并在安装了 Python 3.7.x 和 Java openjdk-8-jre-headless (1.8.0_292) 的虚拟环境中进行设置。
我已经设置了一个 Microsoft Azure Databricks 工作区,其中包含一个运行 Databricks Runtime 7.3 LTS(包括 Apache Spark 3.0.1、Scala 2.12)的集群。根据此处的 Databricks 文档,此运行时运行 Python 3.7.5,应该与我的兼容。
我一直在努力解决这个问题,所以任何帮助将不胜感激!
pycharm - Databricks:远程执行非火花代码
使用 databricks-connect,我可以在集群上运行 spark-code。官方文档(https://docs.microsoft.com/en-us/azure/databricks/dev-tools/databricks-connect)也只提到了 spark-code。如果我执行“普通”python 代码,它不会在 Databricks 上运行,而是在我的本地环境中运行。
据我所知,在浏览器中的 databricks 笔记本中工作时,我还可以运行在驱动程序节点上执行的“普通”python 代码。
有没有办法将外部 IDE(例如 PyCharm)连接到 Databricks,这样所有代码都在集群上执行,就好像我在笔记本中的 Databricks 中工作一样?
编辑:为了更清楚,我知道如何使用 databricks connect 将 PyCharm 连接到 databricks,我可以以这种方式运行 pyspark 代码。我想做的是在数据块上运行非火花代码(例如,在将火花数据帧转换为熊猫数据帧后,在一些数据上训练 sklearn 模型)。据我对 databricks-connect 的理解,所有非火花代码都将在我的本地计算机上运行。但是,在 databricks-notebooks 中,它在驱动程序上运行,并且正在寻找一种使用 databricks-connect 执行此操作的方法。
databricks - 使用 Databricks-connect 时未发现模块错误
我使用 EGG 文件在集群上以及本地计算机上安装了自定义库。我使用 databricks connect 将我的 IDE 连接到我的集群。当我尝试导入模块时,它给了我使用 IDE 执行时找不到模块的错误。使用 databricks 笔记本执行时,相同的代码可以完美运行。我还尝试将诸如 httpagentparser 之类的公共模块安装到集群上,而我的本地计算机在通过 databricks 连接在 IDE 上执行时仍然找不到这些已安装的模块,但可以在笔记本电脑上完美运行。我在本地安装了 httpagentparser,并且在单独测试时运行良好。
apache-spark - Pyspark 驱动程序没有选择我的环境配置
我在一台Windows机器上。运行使用 databricks cli 设置的 pyspark。
收到此错误:
它说 pyspark 驱动程序是 3.9,但我的 PYSPARK_DRIVER_PYTHON 指向的是 3.8 版本的 python。
为什么我的 pyspark 驱动程序仍在运行 3.9?
谢谢你。
scala - 使用 databricks-connect 运行 Scala 模块
我已尝试按照此处的说明设置与 IntelliJ 的数据块连接。我的理解是我可以从 IDE 运行代码,它将在 databricks 集群上运行。
我从 miniconda 环境中添加了 jar 目录,并将其移动到所有 maven 依赖项之上File -> Project Structure...
但是,我认为我做错了什么。当我尝试运行我的模块时,出现以下错误:
259 GB 的系统内存让我觉得它试图在我的笔记本电脑而不是 dbx 集群上本地运行?我不确定这是否正确以及我能做些什么来让它正常运行......
任何帮助表示赞赏!
databricks - 我可以将 Databricks Connect 与配置了端口 443 的集群一起使用吗?
我的公司正在使用 Azure Government 中托管的 Databricks。集群的默认端口是 443,据我所知是 HTTPS。
在配置我的环境变量并运行 databricks-connect test 之后,如果集群处于终止状态,则该命令成功启动集群,但一旦开启测试失败。
部分错误信息:
您指定的端口已被使用或无效。端口:Databricks Connect 连接的端口
- 默认 Databricks 连接端口为 15001
- 获取当前值:spark.conf.get("spark.databricks.service.port")
- 通过 conf 设置:spark.conf.set("spark.databricks.service.port", ")
当我手动将集群的端口更改为 15001 并相应地设置端口环境变量时,databricks-connect 测试成功。
我不是网络安全方面的专家。有没有办法可以将集群保留在端口 443 上并仍然使用 Databricks Connect?
java - 如何解决java spark中的“线程“main”java.lang.Error中的异常:未解决的编译问题:SparkSession无法解析为类型”
我在 Azure Windows 虚拟机中安装了“VScode、jdk 8、python 3.8 和 databricks-connect==8.1.*” 。之后,我创建了一个 databricks 集群并使用 cmd配置了 Databricks-connect 。设置完所有路径变量后,我按照 Java 代码执行:
'''
==================================================== ======= 在 VScode 终端内我得到低于输出'''
'''
当我在配置 databricks 连接后在 cmd 中运行“databricks-connect 测试”时。我得到以下输出... [1]:https ://i.stack.imgur.com/p5WG6.png
databricks - Databrick 连接到 ADLS Gen2 文本文件
我正在使用数据块来访问我的 ADLS Gen2 容器。
我正在使用以下代码并更改我需要更改的内容。
当我运行脚本时,出现以下错误
我在我的应用程序注册中注册了数据块,并将名称添加到我的 ADLS 角色中作为存储 Blob 数据贡献者。
我不确定为什么我的凭据不允许我提取我的 ADLS 帐户中的文本文件。
任何帮助表示赞赏!
databricks - databricks-connect 无法连接到 Databricks 集群运行时 8.4
我有以下设置
Databricks 集群:
客户端:
当我运行databricks-connect test
测试连接时,我收到此错误消息
根据错误信息,我了解到客户端和服务器版本存在兼容性问题。但是,我已经在使用最新的客户端。
- 这是否意味着客户端不添加对服务器版本 8.4 的支持?
- 有什么办法可以规避这个问题吗?