问题标签 [dbutils]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

24 问题

0 投票

1 回答

3637 浏览

apache-spark - 无法在 databricks 社区版集群中创建 dbfs 文件。FileNotFoundError: [Errno 2] 没有这样的文件或目录：

尝试读取databricks 社区版集群中的增量日志文件。（databricks-7.2 版本）

Getting file not found error:

我已经尝试添加/dbfs/，dbfs:/没有解决，仍然得到同样的错误。

但是使用dbutils.fs.head我能够读取文件。

我们如何使用读取/dbfs file分类数据块中的 a python open method？

2020-08-23T23:16:53.577

0 投票

2 回答

186 浏览

scala - 如何使用 Scala 反射/镜像调用 Databricks dbutils

我想打电话

使用镜像。

到目前为止，我实现了这一点：

这提供了一个有效的 dbutils 参考：

作为比较：

要列出可用字段：

问题是如何扩展fieldMirror以访问 dbutils.secrets.get(s, k)

scala reflection databricks scala-reflect dbutils

2020-08-27T07:05:42.467

0 投票

1 回答

1334 浏览

python - 通过 Python 命令和 dbutils 在 Databricks 上安装 Maven 库

在 Databricks 上，如果尚未安装，我想通过 Python Notebook 中的命令安装 Maven 库。

如果它是 Python PyPI 库，我会执行以下操作：

如何对 Maven 库“com.microsoft.azure.kusto:spark-kusto-connector:2.0.0”执行相同操作，即检查它是否已安装，如果没有安装？

我可以使用 UI 安装 Maven 库，方法是转到“集群”->“库”->“安装新”->“Maven”。但我想通过脚本以编程方式进行。

python maven databricks azure-databricks dbutils

2020-11-10T05:41:56.143

0 投票

2 回答

5986 浏览

databricks - 如何将本地文件复制到 Azure Databricks DBFS 文件存储

我在 Azure Databricks 中使用以下命令尝试将文件 test.csv 从本地 C: 驱动器复制到 Databricks dbfs 位置，如图所示。

我收到此错误：

请帮忙。

databricks azure-databricks dbutils

2020-11-12T08:51:46.893

0 投票

0 回答

330 浏览

python-3.x - 使用 Databricks 将 txt 文件从 Azure 文件复制到 Blob 存储

我想从 Azure Files 中读取一个文件（使用 ShareClient 成功）并将该文件导出到 Azure blob 存储。

首先，我使用以下代码将容器安装在 Databricks 中：

当我想使用以下代码上传文件时：

出现以下错误消息：

为了创建这个目录，我使用了这个代码：

问题是这也会创建“空”目录。如果目录至少包含 1 个文件，您知道如何仅创建目录吗？

在此处输入图像描述

python-3.x azure-blob-storage databricks dbutils storage-file-share

2020-11-24T15:02:10.933

0 投票

0 回答

190 浏览

pyspark - Marge 使用 pyspark 中的笔记本在 dbutils 中移动/复制大数据文件

将数据帧作为 tsv 写入数据块文件系统 ( DBFS ) 中，具有巨大的数据大小（30GB 到 1TB）。我目前正在使用以下代码

对于 100GB，复制文件需要一个小时。我曾尝试删除它复制多个文件的 coalesce(1)，但我想要一个 tsv 文件作为输出。

任何人都可以建议复制文件的最佳方法/代码。

另外，如何在 databricks 笔记本中导入 hadoop 文件系统。参考下面的问题

使用单个标头合并 Spark 输出 CSV 文件

pyspark apache-spark-sql hdfs databricks dbutils

2020-12-24T11:49:50.467

0 投票

0 回答

129 浏览

scala - Scala Jar：使用 DBUtils 读取 Databricks 机密

我试图在databricks集群中运行Scala jar，得到HiveException: Unable to execute method public java.lang.String udfDecrypt.evaluate(java.lang.String) with arguments {***gAAAAABgKpJSbxtLkTiED3B3bMGEV0pdgMuE4km85NWJQ4Rh9zzV9pW1TN-wnfTx0-sikuAYGIN6vnIoFBacFT3MRcF5W7dBmeNNaRZbzC69ij77R2LyB5Q=}:null Caused by: InvocationTargetException: Caused by: NullPointerException:

从下面的代码中读取数据块秘密范围的秘密，

如果我做错了什么，请指导我！提前致谢！

scala jar nullpointerexception databricks dbutils

2021-02-15T19:07:50.130

0 投票

0 回答

73 浏览

python - Python中的多进程执行器

我正在尝试运行关于我的 Azure Gen2 数据湖存储的报告。我编写了一个下面的递归函数，该函数进入每个文件夹并列出文件直到最后一级。

我有大量的文件，因此这个功能即使在 2 小时后也没有出现。

这可能会发生，因为它当前由一个进程处理。我需要某种方式在多处理环境中执行这些执行器功能。

python multiprocessing databricks azure-data-lake-gen2 dbutils

2021-03-08T11:30:37.953

0 投票

0 回答

139 浏览

azure-databricks - 重命名文件（附加时间戳）并将其移动到 ADLS Gen2（Databricks）上的不同文件夹

我想将时间戳附加到每个文件的名称中，并将其从 databricks 笔记本移动到 ADLS Gen2 上的另一个文件夹。我可以列出如下文件名。

如何为 ADLSGen2 上的文件重命名附加时间戳的文件。谢谢。

azure-databricks azure-data-lake dbutils

2021-03-16T06:12:34.187

0 投票

0 回答

25 浏览

python - 为什么 pool.connection().cursor().execute() 是一个警告操作？

我是 python 新手，学习数据库操作DBUtils。为什么 pool.connection().cursor().execute() 会过早释放连接而无法重用？

如果您不再需要它，您应该立即使用 db.close() 将其返回到池中。您可以以相同的方式获得另一个连接。

警告：在线程环境中，切勿执行以下操作：

pool.connection().cursor().execute(...)

如果连接不是线程安全的，这将过早释放连接以供重用，这可能是致命的。确保连接对象在您使用它时保持活动状态，如下所示：

db = pool.connection()

cur = db.cursor()

cur.execute(...)

res = cur.fetchone()

cur.close() # 或 del cur

db.close() # 或删除数据库

python python-3.x dbutils

2021-03-20T03:29:52.433

1 2 3 4 5 6 7 8 9 10

问题标签 [dbutils]

Reference