问题标签 [databricks-repos]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 将文件存储中保存的文件传输到工作区或存储库
我建立了一个机器学习模型:
我可以通过以下方式将其保存到文件存储中:
理想情况下,我想将模型直接保存到工作区或存储库中,所以我尝试了:
但它不起作用,因为该文件未显示在工作区中。
我现在唯一的选择是将模型从文件存储转移到工作区或存储库,我该怎么做?
azure - Databricks repos - 无法使用绝对路径的 dbutils.notebook.run
我无法获得使用 dbutils.notebook.run() 的绝对路径。使用带有 dbutils.fs.ls 的绝对路径(带有“file:/Workspace/Repos/user_email/Datalake/databricks/models/notebook”)返回一个 FileInfo 对象。使用 dbutils.notebook.run(path) 运行相同的文件路径字符串确实会开始运行作业,但是会出现找不到笔记本的错误。该错误包括一个路径,它是相对文件路径(我从中运行 dbutils.notebook.run() 命令的笔记本的)与引用笔记本的路径 I 的组合。
似乎 dbutils.notebook.run 无法通过 repos 绝对访问笔记本?
提前致谢。
jenkins-pipeline - 如何使用 ci/cd 管道使用 databricks 存储库自动化 bitbucket 存储库
有人可以帮助我如何通过使用 ci/cd 管道使用 bitbucket 和 Databricks 存储库来自动化这些事情......当新代码提交给 bitbucket 时,也需要在 Databricks 存储库中进行更新
git - 如何在 Azure Databricks 上的两个项目之间共享代码
我在 Azure Databricks 上有两个 ML 项目,它们的工作方式几乎相同,只是它们用于不同的客户端。本质上,我想使用一些管理系统,这样我就可以在不同的项目中共享和重用相同的代码。(即存储特征工程有用函数的python文件,执行类似初始数据预处理的Databricks笔记本,一些配置文件等)同时,如果在共享代码中进行了更新,则需要与所有使用代码的项目。
我知道对于 Git,我们可以使用子模块来执行此操作,其中我们将公共代码存储在存储库 C 中,并将其作为子模块添加到存储库 A 和存储库 B。但问题是 Azure Databricks 不支持子模块。此外,它只支持最大 200 MB 的工作分支,所以我也不能做 Monorepo(即在一个存储库中拥有所有代码)。我正在考虑为共享的 Python 文件创建一个包,但我也有一些我想分享的核心版本的笔记本,我认为它们不可能构建为一个包?
有没有其他方法可以在 Databricks 上执行此操作,以便我可以重用代码而不仅仅是复制和粘贴?
amazon-web-services - 如何使用 ci/cd 管道将 bitbucket 存储库自动化到 databricks 存储库
有人可以帮助解决如何自动化 ci/cd 管道以在来自 bitbucket 存储库的 databricks 存储库中更新和创建新文件。
databricks - 在 Repos 中使用 Databricks CLI 导入 CSV 文件
我们正在使用 Databricks 生成 ETL 脚本。一个步骤要求我们将小型 csvs 上传到 Repos 文件夹中。我可以使用 Repos GUI 中的导入窗口手动执行此操作。但是,我想使用 databricks cli 以编程方式执行此操作。这可能吗?我曾尝试使用 Workspace API,但这仅适用于源代码文件。