问题标签 [databricks-connect]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

114 问题

0 投票

1 回答

647 浏览

python-3.x - 适用于 Azure SQl 数据库和 python 的带有 python 3 的 Databricks

我正在尝试使用 Azure Databricks 来：

1- 使用 python 3 将行插入 Azure SQL 数据库的表中。我看不到有关插入行的文档。（我已使用此链接连接到数据库Doc并且它正在工作）。

2- 将 Csv 文件保存在我的数据湖中

3-如果可能的话，从数据框创建表

感谢您的帮助，并对我的新手问题感到抱歉

2020-12-06T14:00:29.877

0 投票

1 回答

1565 浏览

python - 使用 toPandas() 和 databricks 连接时遇到“java.lang.OutOfMemoryError: Java heap space”

我正在尝试将大小为 [2734984 行 x 11 列] 的 pyspark 数据帧转换为调用toPandas(). 虽然在使用 Azure Databricks Notebook 时它运行良好（11 秒），java.lang.OutOfMemoryError: Java heap space但当我使用 databricks-connect 运行完全相同的代码时遇到异常（db-connect 版本和 Databricks 运行时版本匹配并且都是 7.1）。

我已经增加了火花驱动器内存 (100g) 和 maxResultSize (15g)。我想错误出在 databricks-connect 的某个地方，因为我无法使用笔记本复制它。

任何提示这里发生了什么？

错误如下：

python pandas pyspark databricks databricks-connect

2020-12-09T17:42:15.107

0 投票

1 回答

750 浏览

dataframe - 如何使用 CLI 或 Databricks API 监控 Databricks 作业以获取有关所有作业的信息

我想监视作业的状态，以查看作业是超时运行还是失败。如果您有脚本或任何参考，请帮助我。谢谢

dataframe apache-spark-sql databricks pyspark-dataframes databricks-connect

2020-12-15T06:43:29.900

0 投票

2 回答

1442 浏览

apache-spark - IllegalArgumentException：此服务需要项目 ID，但无法从构建器或环境中确定

我正在尝试将 BigQuery 数据集连接到 Databrick 并使用 Pyspark 运行脚本。

我做过的程序：

我将 BigQuery Json API 修补到 dbfs 中的 databrick 以进行连接访问。
然后我在集群库中添加了 spark-bigquery-latest.jar 并运行了我的脚本。

当我运行这个脚本时，我没有遇到任何错误。

但是，我没有在该架构中调用单个表，而是尝试使用如下查询调用它下的所有表：

或者

这个脚本：

我收到这个不寻常的错误：

当我将其称为表时，它确实可以识别我的项目 ID，但是当我将其作为查询运行时，我会收到此错误。

我试图弄清楚并通过许多网站寻找答案，但无法得到明确的答案。

非常感谢您的帮助...在此先感谢...

apache-spark pyspark google-bigquery databricks databricks-connect

2020-12-15T08:12:31.350

0 投票

0 回答

255 浏览

pyspark - INVALID_ARGUMENT：请求失败：不支持通配符表

我正在尝试使用 databricks 最新版本（7.1+，spark 3.0）与 pyspark 作为脚本编辑器/基本语言连接 bigquery。完成此操作的步骤：

将 bigquery API 传递给数据块进行连接
在 databricks 中安装了 Spark bigquery 最新的 jar 我们运行了下面的 pyspark 脚本来从 bigquery 表中获取数据到 databricks

运行脚本后，当我们尝试查看数据时，出现以下错误。

错误：

但是，如果我们尝试在表名中不提供“*”的情况下获取数据，我们就能够以嵌套格式获取数据。有没有办法在单个脚本中获取单个模式下的所有表？

帮助将不胜感激。提前致谢！

pyspark google-bigquery databricks databricks-connect

2020-12-15T13:42:56.380

0 投票

0 回答

424 浏览

pyspark - 有没有办法在单个 pyspark 脚本中取消嵌套数据块中的 bigquery 列

我正在尝试使用 databricks 最新版本（7.1+，spark 3.0）与 pyspark 作为脚本编辑器/基本语言连接 bigquery。

我们运行下面的 pyspark 脚本来从 bigquery 表中获取数据到 databricks

运行脚本后，当我们尝试查看数据时，我们能够以嵌套格式获取数据。

示例嵌套数据框

以上是嵌套数据格式的示例数据。

在此，前 3 列 visitId、visitStartTime 和 date 是直接列

第 4 列 Totals 采用嵌套格式，需要以 totals.visits、totals.hits 等格式取消嵌套，作为单独的列标题，如 1st 3 列及其值

第 5 列也是如此，它有多个嵌套字典，并且应该将字典内的每一列取消嵌套为单独的列标题，我在上面的第 4 列中提到过。

直接从 bigquery 读取数据时，是否有在 pyspark 中取消嵌套数据？

帮助将不胜感激。提前致谢！

pyspark google-bigquery databricks databricks-connect

2020-12-15T13:50:51.837

0 投票

1 回答

638 浏览

databricks - 如何使用 Databricks CLI 使用 Job Id 获取 Run id

我试图databricks runs list在 CLI 上使用 Run id，但没有得到每天运行的所有作业的 Run id，我只有前 20 个 Run id，但后来我得到了所有使用的作业的 Job id，databricks jobs list --output json现在我想得到 Run使用作业 ID 的所有作业的 ID。请帮我解决这个问题，我是databricks的新手。

databricks azure-databricks databricks-connect

2020-12-26T12:49:56.830

0 投票

1 回答

307 浏览