问题标签 [dbutils]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3637 浏览

apache-spark - 无法在 databricks 社区版集群中创建 dbfs 文件。FileNotFoundError: [Errno 2] 没有这样的文件或目录:

尝试读取databricks 社区版集群中的增量日志文件。(databricks-7.2 版本)


Getting file not found error:

我已经尝试添加/dbfs/dbfs:/没有解决,仍然得到同样的错误。

但是使用dbutils.fs.head我能够读取文件。

我们如何使用 读取/dbfs file分类数据块中的 a python open method

0 投票
2 回答
186 浏览

scala - 如何使用 Scala 反射/镜像调用 Databricks dbutils

我想打电话

使用镜像。

到目前为止,我实现了这一点:

这提供了一个有效的 dbutils 参考:

作为比较:

要列出可用字段:

问题是如何扩展fieldMirror以访问 dbutils.secrets.get(s, k)

0 投票
1 回答
1334 浏览

python - 通过 Python 命令和 dbutils 在 Databricks 上安装 Maven 库

在 Databricks 上,如果尚未安装,我想通过 Python Notebook 中的命令安装 Maven 库。

如果它是 Python PyPI 库,我会执行以下操作:

如何对 Maven 库“com.microsoft.azure.kusto:spark-kusto-connector:2.0.0”执行相同操作,即检查它是否已安装,如果没有安装?

我可以使用 UI 安装 Maven 库,方法是转到“集群”->“库”->“安装新”->“Maven”。但我想通过脚本以编程方式进行。

0 投票
2 回答
5986 浏览

databricks - 如何将本地文件复制到 Azure Databricks DBFS 文件存储

我在 Azure Databricks 中使用以下命令尝试将文件 test.csv 从本地 C: 驱动器复制到 Databricks dbfs 位置,如图所示。

我收到此错误:

请帮忙。

0 投票
0 回答
330 浏览

python-3.x - 使用 Databricks 将 txt 文件从 Azure 文件复制到 Blob 存储

我想从 Azure Files 中读取一个文件(使用 ShareClient 成功)并将该文件导出到 Azure blob 存储。

首先,我使用以下代码将容器安装在 Databricks 中:

当我想使用以下代码上传文件时:

出现以下错误消息:

为了创建这个目录,我使用了这个代码:

问题是这也会创建“空”目录。如果目录至少包含 1 个文件,您知道如何仅创建目录吗?

在此处输入图像描述

0 投票
0 回答
190 浏览

pyspark - Marge 使用 pyspark 中的笔记本在 dbutils 中移动/复制大数据文件

将数据帧作为 tsv 写入数据块文件系统 ( DBFS ) 中,具有巨大的数据大小(30GB 到 1TB)。我目前正在使用以下代码

对于 100GB,复制文件需要一个小时。我曾尝试删除它复制多个文件的 coalesce(1),但我想要一个 tsv 文件作为输出。

任何人都可以建议复制文件的最佳方法/代码。

另外,如何在 databricks 笔记本中导入 hadoop 文件系统。参考下面的问题

使用单个标头合并 Spark 输出 CSV 文件

0 投票
0 回答
129 浏览

scala - Scala Jar:使用 DBUtils 读取 Databricks 机密

我试图在databricks集群中运行Scala jar,得到HiveException: Unable to execute method public java.lang.String udfDecrypt.evaluate(java.lang.String) with arguments {***gAAAAABgKpJSbxtLkTiED3B3bMGEV0pdgMuE4km85NWJQ4Rh9zzV9pW1TN-wnfTx0-sikuAYGIN6vnIoFBacFT3MRcF5W7dBmeNNaRZbzC69ij77R2LyB5Q=}:null Caused by: InvocationTargetException: Caused by: NullPointerException:

从下面的代码中读取数据块秘密范围的秘密,

如果我做错了什么,请指导我!提前致谢!

0 投票
0 回答
73 浏览

python - Python中的多进程执行器

我正在尝试运行关于我的 Azure Gen2 数据湖存储的报告。我编写了一个下面的递归函数,该函数进入每个文件夹并列出文件直到最后一级。

我有大量的文件,因此这个功能即使在 2 小时后也没有出现。

这可能会发生,因为它当前由一个进程处理。我需要某种方式在多处理环境中执行这些执行器功能。

0 投票
0 回答
139 浏览

azure-databricks - 重命名文件(附加时间戳)并将其移动到 ADLS Gen2(Databricks)上的不同文件夹

我想将时间戳附加到每个文件的名称中,并将其从 databricks 笔记本移动到 ADLS Gen2 上的另一个文件夹。我可以列出如下文件名。

如何为 ADLSGen2 上的文件重命名附加时间戳的文件。谢谢。

0 投票
0 回答
25 浏览

python - 为什么 pool.connection().cursor().execute() 是一个警告操作?

我是 python 新手,学习数据库操作DBUtils。为什么 pool.connection().cursor().execute() 会过早释放连接而无法重用?

如果您不再需要它,您应该立即使用 db.close() 将其返回到池中。您可以以相同的方式获得另一个连接。

警告:在线程环境中,切勿执行以下操作:

pool.connection().cursor().execute(...)

如果连接不是线程安全的,这将过早释放连接以供重用,这可能是致命的。确保连接对象在您使用它时保持活动状态,如下所示:

db = pool.connection()

cur = db.cursor()

cur.execute(...)

res = cur.fetchone()

cur.close() # 或 del cur

db.close() # 或删除数据库