问题标签 [databricks-connect]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
647 浏览

python-3.x - 适用于 Azure SQl 数据库和 python 的带有 python 3 的 Databricks

我正在尝试使用 Azure Databricks 来:

1- 使用 python 3 将行插入 Azure SQL 数据库的表中。我看不到有关插入行的文档。(我已使用此链接连接到数据库Doc并且它正在工作)。

2- 将 Csv 文件保存在我的数据湖中

3-如果可能的话,从数据框创建表

感谢您的帮助,并对我的新手问题感到抱歉

0 投票
1 回答
1565 浏览

python - 使用 toPandas() 和 databricks 连接时遇到“java.lang.OutOfMemoryError: Java heap space”

我正在尝试将大小为 [2734984 行 x 11 列] 的 pyspark 数据帧转换为调用toPandas(). 虽然在使用 Azure Databricks Notebook 时它运行良好(11 秒),java.lang.OutOfMemoryError: Java heap space但当我使用 databricks-connect 运行完全相同的代码时遇到异常(db-connect 版本和 Databricks 运行时版本匹配并且都是 7.1)。

我已经增加了火花驱动器内存 (100g) 和 maxResultSize (15g)。我想错误出在 databricks-connect 的某个地方,因为我无法使用笔记本复制它。

任何提示这里发生了什么?

错误如下:

0 投票
1 回答
750 浏览

dataframe - 如何使用 CLI 或 Databricks API 监控 Databricks 作业以获取有关所有作业的信息

我想监视作业的状态,以查看作业是超时运行还是失败。如果您有脚本或任何参考,请帮助我。谢谢

0 投票
2 回答
1442 浏览

apache-spark - IllegalArgumentException:此服务需要项目 ID,但无法从构建器或环境中确定

我正在尝试将 BigQuery 数据集连接到 Databrick 并使用 Pyspark 运行脚本。

我做过的程序:

  • 我将 BigQuery Json API 修补到 dbfs 中的 databrick 以进行连接访问。

  • 然后我在集群库中添加了 spark-bigquery-latest.jar 并运行了我的脚本。

当我运行这个脚本时,我没有遇到任何错误。

但是,我没有在该架构中调用单个表,而是尝试使用如下查询调用它下的所有表:

或者

这个脚本:

我收到这个不寻常的错误:

当我将其称为表时,它确实可以识别我的项目 ID,但是当我将其作为查询运行时,我会收到此错误。

我试图弄清楚并通过许多网站寻找答案,但无法得到明确的答案。

非常感谢您的帮助...在此先感谢...

0 投票
0 回答
255 浏览

pyspark - INVALID_ARGUMENT:请求失败:不支持通配符表

我正在尝试使用 databricks 最新版本(7.1+,spark 3.0)与 pyspark 作为脚本编辑器/基本语言连接 bigquery。完成此操作的步骤:

  1. 将 bigquery API 传递给数据块进行连接
  2. 在 databricks 中安装了 Spark bigquery 最新的 jar 我们运行了下面的 pyspark 脚本来从 bigquery 表中获取数据到 databricks

运行脚本后,当我们尝试查看数据时,出现以下错误。

错误:

但是,如果我们尝试在表名中不提供“*”的情况下获取数据,我们就能够以嵌套格式获取数据。有没有办法在单个脚本中获取单个模式下的所有表?

帮助将不胜感激。提前致谢!

0 投票
0 回答
424 浏览

pyspark - 有没有办法在单个 pyspark 脚本中取消嵌套数据块中的 bigquery 列

我正在尝试使用 databricks 最新版本(7.1+,spark 3.0)与 pyspark 作为脚本编辑器/基本语言连接 bigquery。

我们运行下面的 pyspark 脚本来从 bigquery 表中获取数据到 databricks

运行脚本后,当我们尝试查看数据时,我们能够以嵌套格式获取数据。

示例嵌套数据框

以上是嵌套数据格式的示例数据。

在此,前 3 列 visitId、visitStartTime 和 date 是直接列

第 4 列 Totals 采用嵌套格式,需要以 totals.visits、totals.hits 等格式取消嵌套,作为单独的列标题,如 1st 3 列及其值

第 5 列也是如此,它有多个嵌套字典,并且应该将字典内的每一列取消嵌套为单独的列标题,我在上面的第 4 列中提到过。

直接从 bigquery 读取数据时,是否有在 pyspark 中取消嵌套数据?

帮助将不胜感激。提前致谢!

0 投票
1 回答
638 浏览

databricks - 如何使用 Databricks CLI 使用 Job Id 获取 Run id

我试图databricks runs list在 CLI 上使用 Run id,但没有得到每天运行的所有作业的 Run id,我只有前 20 个 Run id,但后来我得到了所有使用的作业的 Job id,databricks jobs list --output json现在我想得到 Run使用作业 ID 的所有作业的 ID。请帮我解决这个问题,我是databricks的新手。

0 投票
1 回答
307 浏览

hive - 除了在databrick sql(spark sql)中不起作用的命令

我已经写了这个除了查询以从 databricks 笔记本的两个配置单元表中获取记录的差异。(我试图在 mssql 中获得结果,即只有结果集的差异)

在此处输入图像描述

但是返回的结果集也有匹配的记录。我上面显示的记录来自结果集中,但是当我根据contact_id单独检查它时,它是相同的。所以我不知道为什么除了返回匹配的记录。

只是想知道我们如何通过使用 sql 在 databrick 笔记本中使用 except 或任何差异查找命令。

如果源数据和目标数据相同,我不想在结果集中看到任何内容。

0 投票
2 回答
227 浏览

databricks - 将 DataBricks API 2.0 与令牌一起使用

我正在尝试使用 Bearer Tokens 访问 DataBricks API 2.0,我收到了 200 个响应,但没有显示结果。

这是我收到的回复

我正在运行这个命令,

0 投票
1 回答
135 浏览

databricks - 如何检查是否有人使用带有数据块连接的集群?

当有人连接到 Databricks 集群时,我可以在集群详细信息中看到某个集群处于活动状态并且附加了一些笔记本。但是当我将集群与databricks-connect一起使用时,集群没有运行。

有没有办法检查是否有人使用 databricks-connect 连接到集群?