问题标签 [dbutils]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 无法在 databricks 社区版集群中创建 dbfs 文件。FileNotFoundError: [Errno 2] 没有这样的文件或目录:
尝试读取databricks 社区版集群中的增量日志文件。(databricks-7.2 版本)
Getting file not found error:
我已经尝试添加/dbfs/
,dbfs:/
没有解决,仍然得到同样的错误。
但是使用dbutils.fs.head
我能够读取文件。
我们如何使用 读取/dbfs file
分类数据块中的 a python open method
?
scala - 如何使用 Scala 反射/镜像调用 Databricks dbutils
我想打电话
使用镜像。
到目前为止,我实现了这一点:
这提供了一个有效的 dbutils 参考:
作为比较:
要列出可用字段:
问题是如何扩展fieldMirror以访问 dbutils.secrets.get(s, k)
python - 通过 Python 命令和 dbutils 在 Databricks 上安装 Maven 库
在 Databricks 上,如果尚未安装,我想通过 Python Notebook 中的命令安装 Maven 库。
如果它是 Python PyPI 库,我会执行以下操作:
如何对 Maven 库“com.microsoft.azure.kusto:spark-kusto-connector:2.0.0”执行相同操作,即检查它是否已安装,如果没有安装?
我可以使用 UI 安装 Maven 库,方法是转到“集群”->“库”->“安装新”->“Maven”。但我想通过脚本以编程方式进行。
databricks - 如何将本地文件复制到 Azure Databricks DBFS 文件存储
我在 Azure Databricks 中使用以下命令尝试将文件 test.csv 从本地 C: 驱动器复制到 Databricks dbfs 位置,如图所示。
我收到此错误:
请帮忙。
python-3.x - 使用 Databricks 将 txt 文件从 Azure 文件复制到 Blob 存储
我想从 Azure Files 中读取一个文件(使用 ShareClient 成功)并将该文件导出到 Azure blob 存储。
首先,我使用以下代码将容器安装在 Databricks 中:
当我想使用以下代码上传文件时:
出现以下错误消息:
为了创建这个目录,我使用了这个代码:
问题是这也会创建“空”目录。如果目录至少包含 1 个文件,您知道如何仅创建目录吗?
pyspark - Marge 使用 pyspark 中的笔记本在 dbutils 中移动/复制大数据文件
将数据帧作为 tsv 写入数据块文件系统 ( DBFS ) 中,具有巨大的数据大小(30GB 到 1TB)。我目前正在使用以下代码
对于 100GB,复制文件需要一个小时。我曾尝试删除它复制多个文件的 coalesce(1),但我想要一个 tsv 文件作为输出。
任何人都可以建议复制文件的最佳方法/代码。
另外,如何在 databricks 笔记本中导入 hadoop 文件系统。参考下面的问题
scala - Scala Jar:使用 DBUtils 读取 Databricks 机密
我试图在databricks集群中运行Scala jar,得到HiveException: Unable to execute method public java.lang.String udfDecrypt.evaluate(java.lang.String) with arguments {***gAAAAABgKpJSbxtLkTiED3B3bMGEV0pdgMuE4km85NWJQ4Rh9zzV9pW1TN-wnfTx0-sikuAYGIN6vnIoFBacFT3MRcF5W7dBmeNNaRZbzC69ij77R2LyB5Q=}:null Caused by: InvocationTargetException: Caused by: NullPointerException:
从下面的代码中读取数据块秘密范围的秘密,
如果我做错了什么,请指导我!提前致谢!
python - Python中的多进程执行器
我正在尝试运行关于我的 Azure Gen2 数据湖存储的报告。我编写了一个下面的递归函数,该函数进入每个文件夹并列出文件直到最后一级。
我有大量的文件,因此这个功能即使在 2 小时后也没有出现。
这可能会发生,因为它当前由一个进程处理。我需要某种方式在多处理环境中执行这些执行器功能。
azure-databricks - 重命名文件(附加时间戳)并将其移动到 ADLS Gen2(Databricks)上的不同文件夹
我想将时间戳附加到每个文件的名称中,并将其从 databricks 笔记本移动到 ADLS Gen2 上的另一个文件夹。我可以列出如下文件名。
如何为 ADLSGen2 上的文件重命名附加时间戳的文件。谢谢。
python - 为什么 pool.connection().cursor().execute() 是一个警告操作?
我是 python 新手,学习数据库操作DBUtils
。为什么 pool.connection().cursor().execute() 会过早释放连接而无法重用?
如果您不再需要它,您应该立即使用 db.close() 将其返回到池中。您可以以相同的方式获得另一个连接。
警告:在线程环境中,切勿执行以下操作:
pool.connection().cursor().execute(...)
如果连接不是线程安全的,这将过早释放连接以供重用,这可能是致命的。确保连接对象在您使用它时保持活动状态,如下所示:
db = pool.connection()
cur = db.cursor()
cur.execute(...)
res = cur.fetchone()
cur.close() # 或 del cur
db.close() # 或删除数据库