“databricks-connect”的相关标签问题

0 投票

3 回答

1067 浏览

scala - 我可以使用 Jupyter 实验室与使用 Scala 的 databricks 火花集群进行交互吗？

我可以使用 Jupyter 实验室连接到远程托管的数据块 Spark 集群吗？

有关于 databricks 连接的知识库文章，它允许 scala 或 java 客户端进程控制 spark 集群。这是一个示例：
https ://docs.databricks.com/dev-tools/databricks-connect.html

虽然那篇知识库文章涵盖了很多场景，但它没有解释如何使用 Jupyter 笔记本与使用Scala编程语言的数据块集群进行交互。我熟悉 scala 编程，但不熟悉 Python。

2020-09-04T00:41:07.027

0 投票

1 回答

215 浏览

docker - 如何在 databricksConnectDocker 上运行 Docker 映像而不会出现错误“tiny”

当我在 databricksConnectDocker 上运行图像时，我得到了这个：

然后它关闭。

这是我的码头文件：

然后，我创建图像： docker build --tag X1.0 .

并尝试启动一个容器： docker run --name X_container X:1.0

在这里我有我的错误。

知道它可能是什么吗？正常吗？

docker databricks-connect

2020-09-25T11:59:13.683

0 投票

2 回答

111 浏览

databricks - 设置 Databricks 连接

运行后databricks-connect configure，当我运行时databricks-connect test，我得到了"The system cannot find the path specified."，然后什么也没有发生，没有任何错误。请帮我解决这个问题。由于也没有错误消息，因此我也对谷歌的内容感到很短。

databricks databricks-connect

2020-09-27T12:28:07.937

0 投票

1 回答

669 浏览

python - Databricks 与 Azure 事件中心连接

我在尝试使用databricks-connect并依赖于 Maven 安装的扩展在 Databricks 上运行一些 Python 代码时遇到问题（在这种情况下com.microsoft.azure:azure-eventhubs-spark_2.11:2.3.17，可以在Databricks 与 Azure EventHub 集成的官方文档中找到

关于与的连接databricks-connect，一切都设置得很好（通过获得“所有测试通过” databricks-connect test）。Maven 包com.microsoft.azure:azure-eventhubs-spark_2.11:2.3.17似乎在我的集群的库部分中“已安装”）。

错误的代码是这个简单的一行：

产生以下错误堆栈：

我在这里遗漏了一些关于 Maven 包安装的明显内容吗？与 Python 一起使用它是否有额外的步骤？谢谢你的帮助！

python databricks azure-eventhub databricks-connect

2020-09-29T15:54:21.950

0 投票

1 回答

949 浏览

pyspark - 启用进程隔离的集群尚不支持 Databricks Connect

我正在使用 Azure Databricks ( 6.5 Runtime ) 并尝试将其连接到 IDE。但是，为了在我们的集群中启用 AAD 凭证直通，我们需要将以下属性设置为 true

但这会导致 databricks-connect 测试失败并出现错误

有什么解决方法吗？如果没有，那么是否有计划很快支持这个用例？

pyspark azure-active-directory databricks azure-databricks databricks-connect

2020-10-12T09:34:18.747

0 投票

1 回答

4574 浏览

java - Dockerfile 无法复制指定的本地目录和文件

几天以来，我做了很多尝试让它工作，但因为我不能不得不放弃对 SO 的查询来澄清它。

所以，我已经关注了我想要为其构建 dockerfile 的项目结构。

正如您从上面的项目结构中看到的那样，我有 2 个我关心的文件。lib中的jar和文件.databricks -connect

这些本质上是我在本地系统上使用命令databricks-connect配置 databricks-connect 后生成的文件。由于它是一个交互式过程，我们无法在 docker 容器上模拟它，所以我想复制我的配置以供在内部使用码头工人。

下面是我的 Dockerfile。（我对码头工人很陌生，因此我怀疑我的问题可能是微不足道的）

以下是我运行docker built -t graphtransformer:latest 时的错误。--无缓存

我尝试了其他目录，例如docs等，但看起来除了src什么都不能读取。因此，我将/libs移动到src/main/libs以欺骗系统也将其拾取（在 .gitignore 中添加了条目以忽略文件），但它也没有从src/main/libs中选择。此外，命令COPY .databricks-connect /root也因与上述相同的错误而失败，即无法找到文件。

我尝试的另一件事是，因为我做了 COPY 。/app我希望包括libs 和 .databricks-connect在内的所有文件都已经在/app下的 docker 上下文中，所以我尝试这样做

但这也因不同的错误而失败。上面的命令被附加到 ENTRYPOINT。不知道为什么。

在构建期间将波纹管文件挂载到 docker 容器中的最佳方法是什么，以便整个容器可以与 compose 一起使用。在 RUNTIME 期间需要这些文件，因此如果没有这些文件，ENTRYPOINT 将失败。

任何帮助将不胜感激。

提前致谢。

java docker anaconda databricks databricks-connect

2020-10-16T19:51:31.450

0 投票

1 回答

484 浏览

pyspark - 如何在新的数据块连接中正确使用 sql/hive 变量

我正在测试新的databricks connect，并且我经常在databricks 上的python 脚本中使用sql 变量，但是我无法通过dbconnect 使用这些变量。下面的示例在 databricks 中运行良好，但在 dbconnect 中运行良好：

在 dbconnect 我收到以下内容：

那么，有没有人设法使这些变量起作用？

谢谢

pyspark apache-spark-sql databricks azure-databricks databricks-connect

2020-10-28T15:09:00.150

0 投票

2 回答

1114 浏览

pyspark - DATABRICKS 连接 6.4 无法再与服务器通信

我在我的 MacBook 上运行 Pycharm。

客户端设置：Python 解释器 -> Python 3.7 (dtabricks-connect-6.4)

集群设置：Databricks 运行时版本 -> 6.4（包括 Apache Spark 2.4.5、Scala 2.11）

它运行了好几个月，但突然之间，没有任何更新，我不能再从 Pycharm 对 databricks 集群运行我的 python 脚本了。错误是...

我重新启动了 Pycharm，我重新启动了解释器，我重新启动了集群，甚至重新启动了我的 MacBook，但它没有帮助。错误消息完全是错误的，因为集群和客户端都使用相同的版本。我可以看到，当我执行我的 python 脚本时，集群正在启动但最终失败。

pyspark databricks databricks-connect

2020-11-05T10:26:34.653

0 投票

1 回答

274 浏览

python-3.x - 使用 databricks-connect 安装时在本地使用 Pyspark

我安装了 databricks-connect 6.6.0，它有一个 Spark 版本 2.4.6。到目前为止，我一直在使用 databricks 集群，但我正在尝试切换到使用本地 spark 会话进行单元测试。但是，每次我运行它时，它仍然会显示在集群 Spark UI 以及 xxxxxx:4040 上的本地 Spark UI 上。

我尝试过使用 SparkConf()、SparkContext() 和 SQLContext() 启动，但它们都做同样的事情。我也设置了正确的SPARK_HOME、HADOOP_HOME和JAVA_HOME，分别下载了winutils.exe，这些目录都没有空格。我还尝试使用 spark-submit 从控制台和终端运行它。

这是我尝试过的示例代码之一：

我正在使用：Windows 10、databricks-connect 6.6.0、Spark 2.4.6、JDK 1.8.0_265、Python 3.7、PyCharm 社区 2020.1.1

我是否必须覆盖默认/全局 spark 会话才能启动本地会话？我该怎么做？我可能遗漏了一些东西 - 代码本身运行良好，这只是本地与集群的问题。

TIA

python-3.x pyspark databricks databricks-connect

2020-11-06T20:23:37.653

0 投票

1 回答

450 浏览

apache-spark - Spark 会话未初始化 | sparkR.session() 给出错误“if (len > 0) { 中的错误：参数长度为零”

我目前正在使用托管在 databricks 集群外部的 Rstudio 服务器，并按照步骤配置 Databricks Connect。连接测试也成功了。但是当我使用下面的代码初始化一个火花会话时，它会抛出一个错误。

我什至尝试了下面的命令，但抛出了同样的错误：

WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 将默认日志级别设置为“WARN”。要调整日志记录级别，请使用 sc.setLogLevel(newLevel)。对于 SparkR，使用 setLogLevel(newLevel)。if (len > 0) { 中的错误：参数长度为零

我想访问数据块上的 SQL 表或在 R 中编写一个 sql 查询，如下所示：

需要初始化火花会话。让我知道是否可以应用任何其他替代方案。

apache-spark databricks sparkr databricks-connect

2020-11-20T13:15:24.703

问题标签 [databricks-connect]

Reference