问题标签 [databricks-connect]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
901 浏览

databricks - Databricks-Connect 还返回找不到多个 python 文件作业的模块

目前,我正在通过 databricks-connect 使用本地 VS Code 连接到 databricks。但是我的提交都带有找不到模块的错误,这意味着没有找到其他python文件中的代码。我试过了:

  1. 将代码移动到带有 main.py 的文件夹中

  2. 在使用它的函数中导入文件

  3. 通过 sparkContext.addPyFile 添加文件

有没有人有这方面的经验?或者更好的方式与 python 项目的数据块交互。

我似乎我的python部分代码是在本地python env中执行的,只有与spark相关的代码在集群中,但集群并没有加载我所有的python文件。然后引发错误。

我有文件夹

  • 主文件

    lib222.py

    __init__.py

lib222.py 中的类 Foo

主要代码是:

但我得到模块找不到 lib222 的错误。

此外,当我打印一些 sys 信息的 python 版本时,似乎 python 代码是在我的本地机器而不是远程驱动程序中执行的。我的数据库版本是 6.6。详细错误:

0 投票
0 回答
127 浏览

pyspark - Databricks-Connect 6.6 不向 Spark 上下文添加自定义模块

我在 Databricks-Connect 6.6 中遇到了一种奇怪的行为,我想知道是否有人以前见过这种情况并知道是什么导致了这个问题。

我已经通过 Databricks-Connect 创建了一个本地 Spark 上下文,并且可以成功连接到我的集群并执行任何脚本。但是,一旦我尝试通过将自定义模块添加到我的 Spark 上下文sc.addPyFile()并使用其中的自定义类/函数,执行将失败并显示ModuleNotFoundError.

我知道如何将 Python 文件(或包含包的 ZIP 文件)添加到 Spark 上下文中,并且几个月前当我使用 Databricks-Connect 的早​​期版本时它工作了(我认为 6.2 已经折旧,所以我必须更新)。此外,如果我将包打包为 Wheel 并将其安装在集群上,一切正常。实际上,即使我在通过 Azure ML 在 Databricks 计算目标上运行脚本时将包添加到 Spark 上下文,它也可以正常工作。如果我使用 Databricks-Connect,它似乎就坏了。

在调试时,我检查sys.path并在那里列出了包/模块,所以看起来即使包被添加到 Spark 上下文中,它也不会被运送到工作节点。

虽然我在使用 时第一次遇到问题joblibspark,但在我打电话时也会发生

sc.parallelize([1, 2, 3, 4]).mapPartitions(test_function).collect()

我已经测试了针对类似问题提出的所有建议并更改了所有常规参数(Databricks 集群、运行时、本地环境……),但错误仍然存​​在,并且可以通过运行sc.parallelize()……通过 Databricks-Connect 轻松重现(并提供test_function 通过一个模块,该模块通过sc.addPyFile().

有谁知道如何解决这个问题?

0 投票
1 回答
249 浏览

eclipse - 如何修复 spark.read.format("parquet") 错误

我很好地在 Azure 数据块上运行 Scala 代码。现在我想将此代码从 Azure 笔记本移动到 Eclipse。

  1. 我按照 Microsoft 文档成功安装了 databricks 连接。通过databricks数据连接测试。
  2. 我还在 Eclipse 中安装了 SBT 并导入到我的项目中
  3. 我在 eclipse 中创建 scala 对象,并将所有 jar 文件作为外部文件导入 pyspark


当我在 Eclipse 中运行此代码时,它显示找不到主类。但是,如果我评论“ val dfPcllcus22 = spark.read.format("parquet").load("/mnt/slraw/ServiceCenter=*******.parquet")”,则通过测试。所以似乎 spark.read.format 无法识别。

我是 Scala 和 DataBricks 的新手。我研究了几天的结果,但仍然无法解决。如果有人可以提供帮助,真的很感激。环境对我来说有点复杂,如果需要更多信息,请告诉我

0 投票
2 回答
266 浏览

python - 使用 python OS 模块配置 databricks-connect

我想databricks-connect configure在安装databricks-connect之后通过python OS模块进行配置os.system("pip install databricks-connect==6.5")

成功安装 databricks-connect 后,我​​们需要通过传递以下值来配置它:

在终端输入databricks-connect configure,会开始一一询问你上面的参数,如图:

在此处输入图像描述

现在我想使用 python os.system 运行同样的东西

在此之后如何传递主机、端口、令牌等?
在每个值之后,我们也必须按下enter

当我在终端上运行它时,它工作正常,

但是当我尝试运行这个 python os.module 时给了我错误

错误“新主机值必须以 https:// 开头,例如 https://demo.cloud.databricks.com”)

0 投票
1 回答
157 浏览

databricks - 在外部 Blob 存储上的 Azure databricks 中创建数据库给出错误

我已将我的 blob 存储映射到dbfs:/mnt/ 名称下/mnt/deltalake ,并且 blob 存储容器名称为 deltalake。

安装到 Dbfs 是使用 Azure KeyVault 支持的机密范围完成的。

当我尝试使用CREATE DATABASE abc位置创建数据库时,'/mnt/deltalake/databases/abc' 此错误提示路径不存在。

但是,当我使用 .. CREATE DATABASE abcwith location '/user/hive/warehouse/databases/abc' .. 使用 dbfs 路径作为存储时,它总是成功的。

不知道出了什么问题。请提出建议。

0 投票
1 回答
577 浏览

python-3.x - 从 PyCharm IDE 执行 databricks 魔术命令

使用 databricks-connect,我们可以从许多 IDE 成功运行用 Databricks 或 Databricks notebook 编写的代码。Databricks 还创建了许多魔术命令,以通过添加%sql%md. 我目前面临的一个问题是当我尝试在 Pycharm 中执行 Databricks 笔记本时,如下所示:

  • 如何从 PyCharm 执行 Databricks 特定的魔术命令。例如,使用此命令在 Databricks 中的 Done 中导入脚本或笔记本 -

在 IDE 中from FILE_TO_IMPORT import XYZ工作的地方。

再次每次我下载 Databricks 笔记本时,它都会注释掉魔法命令,这使得它无法在 Databricks 环境之外的任何地方使用。

每次我想进行任何开发时,转换所有数据块魔术命令确实效率低下。

我可以设置任何配置来自动检测 Databricks 特定的魔术命令吗?

对此的任何解决方案都会有所帮助。提前致谢!!!

0 投票
1 回答
284 浏览

java - 如何从 Java 连接到 Databricks Apache Spark 的远程实例并将其写入 csv 文件?

我正在尝试连接到 Databricks 的远程实例并将 csv 文件写入 DBFS 的特定文件夹。我可以在这里和那里找到零碎的东西,但我不知道如何完成这项工作。如何从本地计算机上运行的 Java 程序将文件添加到远程 Databricks 实例上的 DBFS?

我目前正在使用从这里创建的社区实例: https ://databricks.com/try-databricks

这是我的实例的网址(我猜“o=7823909094774610”正在识别我的实例)。
https://community.cloud.databricks.com/?o=7823909094774610

以下是我正在寻找解决此问题的一些资源,但我仍然无法起步:

0 投票
1 回答
182 浏览

python - 无法在 Azure DataBricks 群集上执行 Scala 代码

我正在尝试为 DataBricks 设置开发环境,因此我的开发人员可以使用 VSCODE IDE(或其他一些 IDE)编写代码并针对 DataBricks 集群执行代码。

所以我浏览了DataBricks Connect的文档,并按照文档中的建议进行了设置。 https://docs.databricks.com/dev-tools/databricks-connect.html#overview

发布设置我能够在 Azure DataBricks 集群上执行 python 代码,但不能使用Scala 代码

在此处输入图像描述

在运行设置时,我发现它在说Skipping scala command test on windows,我不确定我是否在这里遗漏了一些配置。

请建议如何解决此问题。

0 投票
1 回答
634 浏览

python - 无法连接到 Databricks CLI

所以我需要连接到 Databricks CLI,以便可以在本地计算机上下载 dbfs jar 文件。为此,我正在使用 Databricks CLI。我尝试使用此命令,这是我收到的消息。您能否解释一下为什么我会收到此错误以及我需要做什么才能成功连接到 Databricks CLI?

0 投票
1 回答
1618 浏览

databricks - 如何将已安装的 dbfs jar 文件从 databricks 集群下载到本地机器?

我是 Databricks 的新手,我希望将已安装的 Databricks 集群库下载到我的本地计算机上。你能帮我解决这个问题吗?

因此,详细说明一下,我已经有一个正在运行的集群,上面已经安装了库。我需要将其中一些库(它们是 dbfs jar 文件)下载到我的本地机器上。实际上,我一直在尝试通过 databricks-cli 使用 '''dbfs cp''' 命令,但这不起作用。它没有给出任何错误,但它也没有做任何事情。我希望这能澄清一些事情。