问题标签 [databricks-connect]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 适用于 Azure SQl 数据库和 python 的带有 python 3 的 Databricks
我正在尝试使用 Azure Databricks 来:
1- 使用 python 3 将行插入 Azure SQL 数据库的表中。我看不到有关插入行的文档。(我已使用此链接连接到数据库Doc并且它正在工作)。
2- 将 Csv 文件保存在我的数据湖中
3-如果可能的话,从数据框创建表
感谢您的帮助,并对我的新手问题感到抱歉
python - 使用 toPandas() 和 databricks 连接时遇到“java.lang.OutOfMemoryError: Java heap space”
我正在尝试将大小为 [2734984 行 x 11 列] 的 pyspark 数据帧转换为调用toPandas()
. 虽然在使用 Azure Databricks Notebook 时它运行良好(11 秒),java.lang.OutOfMemoryError: Java heap space
但当我使用 databricks-connect 运行完全相同的代码时遇到异常(db-connect 版本和 Databricks 运行时版本匹配并且都是 7.1)。
我已经增加了火花驱动器内存 (100g) 和 maxResultSize (15g)。我想错误出在 databricks-connect 的某个地方,因为我无法使用笔记本复制它。
任何提示这里发生了什么?
错误如下:
dataframe - 如何使用 CLI 或 Databricks API 监控 Databricks 作业以获取有关所有作业的信息
我想监视作业的状态,以查看作业是超时运行还是失败。如果您有脚本或任何参考,请帮助我。谢谢
apache-spark - IllegalArgumentException:此服务需要项目 ID,但无法从构建器或环境中确定
我正在尝试将 BigQuery 数据集连接到 Databrick 并使用 Pyspark 运行脚本。
我做过的程序:
我将 BigQuery Json API 修补到 dbfs 中的 databrick 以进行连接访问。
然后我在集群库中添加了 spark-bigquery-latest.jar 并运行了我的脚本。
当我运行这个脚本时,我没有遇到任何错误。
但是,我没有在该架构中调用单个表,而是尝试使用如下查询调用它下的所有表:
或者
这个脚本:
我收到这个不寻常的错误:
当我将其称为表时,它确实可以识别我的项目 ID,但是当我将其作为查询运行时,我会收到此错误。
我试图弄清楚并通过许多网站寻找答案,但无法得到明确的答案。
非常感谢您的帮助...在此先感谢...
pyspark - INVALID_ARGUMENT:请求失败:不支持通配符表
我正在尝试使用 databricks 最新版本(7.1+,spark 3.0)与 pyspark 作为脚本编辑器/基本语言连接 bigquery。完成此操作的步骤:
- 将 bigquery API 传递给数据块进行连接
- 在 databricks 中安装了 Spark bigquery 最新的 jar 我们运行了下面的 pyspark 脚本来从 bigquery 表中获取数据到 databricks
运行脚本后,当我们尝试查看数据时,出现以下错误。
错误:
但是,如果我们尝试在表名中不提供“*”的情况下获取数据,我们就能够以嵌套格式获取数据。有没有办法在单个脚本中获取单个模式下的所有表?
帮助将不胜感激。提前致谢!
pyspark - 有没有办法在单个 pyspark 脚本中取消嵌套数据块中的 bigquery 列
我正在尝试使用 databricks 最新版本(7.1+,spark 3.0)与 pyspark 作为脚本编辑器/基本语言连接 bigquery。
我们运行下面的 pyspark 脚本来从 bigquery 表中获取数据到 databricks
运行脚本后,当我们尝试查看数据时,我们能够以嵌套格式获取数据。
以上是嵌套数据格式的示例数据。
在此,前 3 列 visitId、visitStartTime 和 date 是直接列
第 4 列 Totals 采用嵌套格式,需要以 totals.visits、totals.hits 等格式取消嵌套,作为单独的列标题,如 1st 3 列及其值
第 5 列也是如此,它有多个嵌套字典,并且应该将字典内的每一列取消嵌套为单独的列标题,我在上面的第 4 列中提到过。
直接从 bigquery 读取数据时,是否有在 pyspark 中取消嵌套数据?
帮助将不胜感激。提前致谢!
databricks - 如何使用 Databricks CLI 使用 Job Id 获取 Run id
我试图databricks runs list
在 CLI 上使用 Run id,但没有得到每天运行的所有作业的 Run id,我只有前 20 个 Run id,但后来我得到了所有使用的作业的 Job id,databricks jobs list --output json
现在我想得到 Run使用作业 ID 的所有作业的 ID。请帮我解决这个问题,我是databricks的新手。
databricks - 如何检查是否有人使用带有数据块连接的集群?
当有人连接到 Databricks 集群时,我可以在集群详细信息中看到某个集群处于活动状态并且附加了一些笔记本。但是当我将集群与databricks-connect一起使用时,集群没有运行。
有没有办法检查是否有人使用 databricks-connect 连接到集群?