问题标签 [databricks-connect]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
databricks - Databricks-Connect 还返回找不到多个 python 文件作业的模块
目前,我正在通过 databricks-connect 使用本地 VS Code 连接到 databricks。但是我的提交都带有找不到模块的错误,这意味着没有找到其他python文件中的代码。我试过了:
将代码移动到带有 main.py 的文件夹中
在使用它的函数中导入文件
通过 sparkContext.addPyFile 添加文件
有没有人有这方面的经验?或者更好的方式与 python 项目的数据块交互。
我似乎我的python部分代码是在本地python env中执行的,只有与spark相关的代码在集群中,但集群并没有加载我所有的python文件。然后引发错误。
我有文件夹
主文件
lib222.py
__init__.py
lib222.py 中的类 Foo
主要代码是:
但我得到模块找不到 lib222 的错误。
此外,当我打印一些 sys 信息的 python 版本时,似乎 python 代码是在我的本地机器而不是远程驱动程序中执行的。我的数据库版本是 6.6。详细错误:
pyspark - Databricks-Connect 6.6 不向 Spark 上下文添加自定义模块
我在 Databricks-Connect 6.6 中遇到了一种奇怪的行为,我想知道是否有人以前见过这种情况并知道是什么导致了这个问题。
我已经通过 Databricks-Connect 创建了一个本地 Spark 上下文,并且可以成功连接到我的集群并执行任何脚本。但是,一旦我尝试通过将自定义模块添加到我的 Spark 上下文sc.addPyFile()
并使用其中的自定义类/函数,执行将失败并显示ModuleNotFoundError
.
我知道如何将 Python 文件(或包含包的 ZIP 文件)添加到 Spark 上下文中,并且几个月前当我使用 Databricks-Connect 的早期版本时它工作了(我认为 6.2 已经折旧,所以我必须更新)。此外,如果我将包打包为 Wheel 并将其安装在集群上,一切正常。实际上,即使我在通过 Azure ML 在 Databricks 计算目标上运行脚本时将包添加到 Spark 上下文,它也可以正常工作。如果我使用 Databricks-Connect,它似乎就坏了。
在调试时,我检查sys.path
并在那里列出了包/模块,所以看起来即使包被添加到 Spark 上下文中,它也不会被运送到工作节点。
虽然我在使用 时第一次遇到问题joblibspark
,但在我打电话时也会发生
sc.parallelize([1, 2, 3, 4]).mapPartitions(test_function).collect()
我已经测试了针对类似问题提出的所有建议并更改了所有常规参数(Databricks 集群、运行时、本地环境……),但错误仍然存在,并且可以通过运行sc.parallelize()
……通过 Databricks-Connect 轻松重现(并提供test_function 通过一个模块,该模块通过sc.addPyFile()
.
有谁知道如何解决这个问题?
eclipse - 如何修复 spark.read.format("parquet") 错误
我很好地在 Azure 数据块上运行 Scala 代码。现在我想将此代码从 Azure 笔记本移动到 Eclipse。
- 我按照 Microsoft 文档成功安装了 databricks 连接。通过databricks数据连接测试。
- 我还在 Eclipse 中安装了 SBT 并导入到我的项目中
- 我在 eclipse 中创建 scala 对象,并将所有 jar 文件作为外部文件导入 pyspark
当我在 Eclipse 中运行此代码时,它显示找不到主类。但是,如果我评论“ val dfPcllcus22 = spark.read.format("parquet").load("/mnt/slraw/ServiceCenter=*******.parquet")
”,则通过测试。所以似乎 spark.read.format 无法识别。
我是 Scala 和 DataBricks 的新手。我研究了几天的结果,但仍然无法解决。如果有人可以提供帮助,真的很感激。环境对我来说有点复杂,如果需要更多信息,请告诉我
python - 使用 python OS 模块配置 databricks-connect
我想databricks-connect configure
在安装databricks-connect之后通过python OS模块进行配置os.system("pip install databricks-connect==6.5")
成功安装 databricks-connect 后,我们需要通过传递以下值来配置它:
在终端输入databricks-connect configure
,会开始一一询问你上面的参数,如图:
现在我想使用 python os.system 运行同样的东西
在此之后如何传递主机、端口、令牌等?
在每个值之后,我们也必须按下enter
。
当我在终端上运行它时,它工作正常,
但是当我尝试运行这个 python os.module 时给了我错误
错误“新主机值必须以 https:// 开头,例如 https://demo.cloud.databricks.com”)
databricks - 在外部 Blob 存储上的 Azure databricks 中创建数据库给出错误
我已将我的 blob 存储映射到dbfs:/mnt/
名称下/mnt/deltalake
,并且 blob 存储容器名称为 deltalake。
安装到 Dbfs 是使用 Azure KeyVault 支持的机密范围完成的。
当我尝试使用CREATE DATABASE abc
位置创建数据库时,'/mnt/deltalake/databases/abc'
此错误提示路径不存在。
但是,当我使用 .. CREATE DATABASE abc
with location '/user/hive/warehouse/databases/abc'
.. 使用 dbfs 路径作为存储时,它总是成功的。
不知道出了什么问题。请提出建议。
python-3.x - 从 PyCharm IDE 执行 databricks 魔术命令
使用 databricks-connect,我们可以从许多 IDE 成功运行用 Databricks 或 Databricks notebook 编写的代码。Databricks 还创建了许多魔术命令,以通过添加%sql
或%md
. 我目前面临的一个问题是当我尝试在 Pycharm 中执行 Databricks 笔记本时,如下所示:
如何从 PyCharm 执行 Databricks 特定的魔术命令。例如,使用此命令在 Databricks 中的 Done 中导入脚本或笔记本 -
在 IDE 中from FILE_TO_IMPORT import XYZ
工作的地方。
再次每次我下载 Databricks 笔记本时,它都会注释掉魔法命令,这使得它无法在 Databricks 环境之外的任何地方使用。
每次我想进行任何开发时,转换所有数据块魔术命令确实效率低下。
我可以设置任何配置来自动检测 Databricks 特定的魔术命令吗?
对此的任何解决方案都会有所帮助。提前致谢!!!
java - 如何从 Java 连接到 Databricks Apache Spark 的远程实例并将其写入 csv 文件?
我正在尝试连接到 Databricks 的远程实例并将 csv 文件写入 DBFS 的特定文件夹。我可以在这里和那里找到零碎的东西,但我不知道如何完成这项工作。如何从本地计算机上运行的 Java 程序将文件添加到远程 Databricks 实例上的 DBFS?
我目前正在使用从这里创建的社区实例: https ://databricks.com/try-databricks
这是我的实例的网址(我猜“o=7823909094774610”正在识别我的实例)。
https://community.cloud.databricks.com/?o=7823909094774610
以下是我正在寻找解决此问题的一些资源,但我仍然无法起步:
Databricks Connect 文档:这涉及连接,但不是专门来自 Java。它给出了“将 Eclipse”连接到数据块的示例,这似乎是如何为此获取 jar 依赖项(附带问题,是否有 mvn 版本?)。 https://docs.databricks.com/dev-tools/databricks-connect.html#run-examples-from-your-ide
一些 Java 示例代码:似乎没有连接到远程 Databricks 实例的示例 https://www.programcreek.com/java-api-examples/index.php?api=org.apache.spark.sql。火花会话
Databricks 文件系统 (DBFS) 文档:很好地概述了文件功能,但似乎没有具体讨论如何从远程 Java 应用程序连接并将文件从 Java 应用程序 https://docs 写入 Databricks 实例。 databricks.com/data/databricks-file-system.html
FileStore 文档:很好地概述了文件存储,但似乎并没有专门讨论如何从远程 Java 应用程序执行此操作 https://docs.databricks.com/data/filestore.html
python - 无法在 Azure DataBricks 群集上执行 Scala 代码
我正在尝试为 DataBricks 设置开发环境,因此我的开发人员可以使用 VSCODE IDE(或其他一些 IDE)编写代码并针对 DataBricks 集群执行代码。
所以我浏览了DataBricks Connect的文档,并按照文档中的建议进行了设置。 https://docs.databricks.com/dev-tools/databricks-connect.html#overview
发布设置我能够在 Azure DataBricks 集群上执行 python 代码,但不能使用Scala 代码
在运行设置时,我发现它在说Skipping scala command test on windows,我不确定我是否在这里遗漏了一些配置。
请建议如何解决此问题。
python - 无法连接到 Databricks CLI
所以我需要连接到 Databricks CLI,以便可以在本地计算机上下载 dbfs jar 文件。为此,我正在使用 Databricks CLI。我尝试使用此命令,这是我收到的消息。您能否解释一下为什么我会收到此错误以及我需要做什么才能成功连接到 Databricks CLI?
databricks - 如何将已安装的 dbfs jar 文件从 databricks 集群下载到本地机器?
我是 Databricks 的新手,我希望将已安装的 Databricks 集群库下载到我的本地计算机上。你能帮我解决这个问题吗?
因此,详细说明一下,我已经有一个正在运行的集群,上面已经安装了库。我需要将其中一些库(它们是 dbfs jar 文件)下载到我的本地机器上。实际上,我一直在尝试通过 databricks-cli 使用 '''dbfs cp''' 命令,但这不起作用。它没有给出任何错误,但它也没有做任何事情。我希望这能澄清一些事情。