问题标签 [databricks-connect]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1067 浏览

scala - 我可以使用 Jupyter 实验室与使用 Scala 的 databricks 火花集群进行交互吗?

我可以使用 Jupyter 实验室连接到远程托管的数据块 Spark 集群吗?

有关于 databricks 连接的知识库文章,它允许 scala 或 java 客户端进程控制 spark 集群。这是一个示例:
https ://docs.databricks.com/dev-tools/databricks-connect.html

虽然那篇知识库文章涵盖了很多场景,但它没有解释如何使用 Jupyter 笔记本与使用Scala编程语言的数据块集群进行交互。我熟悉 scala 编程,但不熟悉 Python。

0 投票
1 回答
215 浏览

docker - 如何在 databricksConnectDocker 上运行 Docker 映像而不会出现错误“tiny”

当我在 databricksConnectDocker 上运行图像时,我得到了这个:

然后它关闭。

这是我的码头文件:

然后,我创建图像: docker build --tag X1.0 .

并尝试启动一个容器: docker run --name X_container X:1.0

在这里我有我的错误。

知道它可能是什么吗?正常吗?

0 投票
2 回答
111 浏览

databricks - 设置 Databricks 连接

运行后databricks-connect configure,当我运行时databricks-connect test,我得到了"The system cannot find the path specified.",然后什么也没有发生,没有任何错误。请帮我解决这个问题。由于也没有错误消息,因此我也对谷歌的内容感到很短。在此处输入图像描述

0 投票
1 回答
669 浏览

python - Databricks 与 Azure 事件中心连接

我在尝试使用databricks-connect并依赖于 Maven 安装的扩展在 Databricks 上运行一些 Python 代码时遇到问题(在这种情况下com.microsoft.azure:azure-eventhubs-spark_2.11:2.3.17,可以在Databricks 与 Azure EventHub 集成的官方文档中找到

关于与 的连接databricks-connect,一切都设置得很好(通过 获得“所有测试通过” databricks-connect test)。Maven 包com.microsoft.azure:azure-eventhubs-spark_2.11:2.3.17似乎在我的集群的库部分中“已安装”)。

错误的代码是这个简单的一行:

产生以下错误堆栈:

我在这里遗漏了一些关于 Maven 包安装的明显内容吗?与 Python 一起使用它是否有额外的步骤?谢谢你的帮助 !

0 投票
1 回答
949 浏览

pyspark - 启用进程隔离的集群尚不支持 Databricks Connect

我正在使用 Azure Databricks ( 6.5 Runtime ) 并尝试将其连接到 IDE。但是,为了在我们的集群中启用 AAD 凭证直通,我们需要将以下属性设置为 true

但这会导致 databricks-connect 测试失败并出现错误

有什么解决方法吗?如果没有,那么是否有计划很快支持这个用例?

0 投票
1 回答
4574 浏览

java - Dockerfile 无法复制指定的本地目录和文件

几天以来,我做了很多尝试让它工作,但因为我不能不得不放弃对 SO 的查询来澄清它。

所以,我已经关注了我想要为其构建 dockerfile 的项目结构。

在此处输入图像描述

正如您从上面的项目结构中看到的那样,我有 2 个我关心的文件。lib中的jar和文件.databricks -connect

这些本质上是我在本地系统上使用命令databricks-connect配置 databricks-connect 后生成的文件。由于它是一个交互式过程,我们无法在 docker 容器上模拟它,所以我想复制我的配置以供在内部使用码头工人。

下面是我的 Dockerfile。(我对码头工人很陌生,因此我怀疑我的问题可能是微不足道的)

以下是我运行docker built -t graphtransformer:latest 时的错误。--无缓存

我尝试了其他目录,例如docs等,但看起来除了src什么都不能读取。因此,我将/libs移动到src/main/libs以欺骗系统也将其拾取(在 .gitignore 中添加了条目以忽略文件),但它也没有从src/main/libs中选择。此外,命令COPY .databricks-connect /root也因与上述相同的错误而失败,即无法找到文件。

我尝试的另一件事是,因为我做了 COPY 。/app我希望包括libs 和 .databricks-connect在内的所有文件都已经在/app下的 docker 上下文中,所以我尝试这样做

但这也因不同的错误而失败。上面的命令被附加到 ENTRYPOINT。不知道为什么。

在构建期间将波纹管文件挂载到 docker 容器中的最佳方法是什么,以便整个容器可以与 compose 一起使用。在 RUNTIME 期间需要这些文件,因此如果没有这些文件,ENTRYPOINT 将失败。

任何帮助将不胜感激。

提前致谢。

0 投票
1 回答
484 浏览

pyspark - 如何在新的数据块连接中正确使用 sql/hive 变量

我正在测试新的databricks connect,并且我经常在databricks 上的python 脚本中使用sql 变量,但是我无法通过dbconnect 使用这些变量。下面的示例在 databricks 中运行良好,但在 dbconnect 中运行良好:

在 dbconnect 我收到以下内容:

那么,有没有人设法使这些变量起作用?

谢谢

0 投票
2 回答
1114 浏览

pyspark - DATABRICKS 连接 6.4 无法再与服务器通信

我在我的 MacBook 上运行 Pycharm。

客户端设置:Python 解释器 -> Python 3.7 (dtabricks-connect-6.4)

集群设置:Databricks 运行时版本 -> 6.4(包括 Apache Spark 2.4.5、Scala 2.11)

它运行了好几个月,但突然之间,没有任何更新,我不能再从 Pycharm 对 databricks 集群运行我的 python 脚本了。错误是...

我重新启动了 Pycharm,我重新启动了解释器,我重新启动了集群,甚至重新启动了我的 MacBook,但它没有帮助。错误消息完全是错误的,因为集群和客户端都使用相同的版本。我可以看到,当我执行我的 python 脚本时,集群正在启动但最终失败。

在此处输入图像描述

在此处输入图像描述

0 投票
1 回答
274 浏览

python-3.x - 使用 databricks-connect 安装时在本地使用 Pyspark

我安装了 databricks-connect 6.6.0,它有一个 Spark 版本 2.4.6。到目前为止,我一直在使用 databricks 集群,但我正在尝试切换到使用本地 spark 会话进行单元测试。但是,每次我运行它时,它仍然会显示在集群 Spark UI 以及 xxxxxx:4040 上的本地 Spark UI 上。

我尝试过使用 SparkConf()、SparkContext() 和 SQLContext() 启动,但它们都做同样的事情。我也设置了正确的SPARK_HOME、HADOOP_HOME和JAVA_HOME,分别下载了winutils.exe,这些目录都没有空格。我还尝试使用 spark-submit 从控制台和终端运行它。

这是我尝试过的示例代码之一:

我正在使用:Windows 10、databricks-connect 6.6.0、Spark 2.4.6、JDK 1.8.0_265、Python 3.7、PyCharm 社区 2020.1.1

我是否必须覆盖默认/全局 spark 会话才能启动本地会话?我该怎么做?我可能遗漏了一些东西 - 代码本身运行良好,这只是本地与集群的问题。

TIA

0 投票
1 回答
450 浏览

apache-spark - Spark 会话未初始化 | sparkR.session() 给出错误“if (len > 0) { 中的错误:参数长度为零”

我目前正在使用托管在 databricks 集群外部的 Rstudio 服务器,并按照步骤配置 Databricks Connect。连接测试也成功了。但是当我使用下面的代码初始化一个火花会话时,它会抛出一个错误。

我什至尝试了下面的命令,但抛出了同样的错误:

WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 将默认日志级别设置为“WARN”。要调整日志记录级别,请使用 sc.setLogLevel(newLevel)。对于 SparkR,使用 setLogLevel(newLevel)。if (len > 0) { 中的错误:参数长度为零

我想访问数据块上的 SQL 表或在 R 中编写一个 sql 查询,如下所示:

需要初始化火花会话。让我知道是否可以应用任何其他替代方案。