问题标签 [databricks-repos]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

18 问题

0 投票

1 回答

49 浏览

scala - 在连接到 git 的笔记本中运行另一个笔记本

在我们公司，我们学会了将笔记本连接到 git 存储库，但是有一个问题。

在另一个笔记本中运行一个笔记本。这是我们发现的方式，但是该解决方案无法投入生产，因为它在路径中包含员工用户名。

解决它的方法是什么？

2022-01-20T04:21:13.387

0 投票

2 回答

90 浏览

azure-data-factory - 运行独立于 git 用户名的通过 ADF 连接到 git 的 databricks 笔记本

在我们公司编排运行的 Databricks 笔记本时，我们通过实验学习了将笔记本（附属于 git 存储库）连接到 ADF 管道，但是，存在一个问题。

正如您在附在此问题笔记本上的照片中看到的那样，笔记本的路径取决于员工用户名，这在生产中不是一个稳定的解决方案。

解决它的方法是什么？

更新：主要问题是将员工用户名保持在生产环境之外，以避免将来出现任何故障。在 ADF 路径或辅助存储位置中，可以通过查找读取但仍位于生产端。

ADF 中的路径选择：

azure-data-factory databricks azure-databricks azure-git-deployment databricks-repos

2022-01-20T22:06:54.900

0 投票

1 回答

37 浏览

python-3.x - 将文件存储中保存的文件传输到工作区或存储库

我建立了一个机器学习模型：

我可以通过以下方式将其保存到文件存储中：

理想情况下，我想将模型直接保存到工作区或存储库中，所以我尝试了：

但它不起作用，因为该文件未显示在工作区中。

我现在唯一的选择是将模型从文件存储转移到工作区或存储库，我该怎么做？

python-3.x machine-learning azure-databricks databricks-repos

2022-01-28T10:41:26.130

0 投票

1 回答

71 浏览

azure - Databricks repos - 无法使用绝对路径的 dbutils.notebook.run

我无法获得使用 dbutils.notebook.run() 的绝对路径。使用带有 dbutils.fs.ls 的绝对路径（带有“file:/Workspace/Repos/user_email/Datalake/databricks/models/notebook”）返回一个 FileInfo 对象。使用 dbutils.notebook.run(path) 运行相同的文件路径字符串确实会开始运行作业，但是会出现找不到笔记本的错误。该错误包括一个路径，它是相对文件路径（我从中运行 dbutils.notebook.run() 命令的笔记本的）与引用笔记本的路径 I 的组合。

似乎 dbutils.notebook.run 无法通过 repos 绝对访问笔记本？

提前致谢。

azure databricks databricks-repos

2022-02-07T15:39:12.573

0 投票

0 回答

18 浏览

jenkins-pipeline - 如何使用 ci/cd 管道使用 databricks 存储库自动化 bitbucket 存储库

有人可以帮助我如何通过使用 ci/cd 管道使用 bitbucket 和 Databricks 存储库来自动化这些事情......当新代码提交给 bitbucket 时，也需要在 Databricks 存储库中进行更新

jenkins-pipeline databricks databricks-connect databricks-repos

2022-02-14T07:16:19.983

0 投票

0 回答

30 浏览

git - 如何在 Azure Databricks 上的两个项目之间共享代码

我在 Azure Databricks 上有两个 ML 项目，它们的工作方式几乎相同，只是它们用于不同的客户端。本质上，我想使用一些管理系统，这样我就可以在不同的项目中共享和重用相同的代码。（即存储特征工程有用函数的python文件，执行类似初始数据预处理的Databricks笔记本，一些配置文件等）同时，如果在共享代码中进行了更新，则需要与所有使用代码的项目。

我知道对于 Git，我们可以使用子模块来执行此操作，其中我们将公共代码存储在存储库 C 中，并将其作为子模块添加到存储库 A 和存储库 B。但问题是 Azure Databricks 不支持子模块。此外，它只支持最大 200 MB 的工作分支，所以我也不能做 Monorepo（即在一个存储库中拥有所有代码）。我正在考虑为共享的 Python 文件创建一个包，但我也有一些我想分享的核心版本的笔记本，我认为它们不可能构建为一个包？

有没有其他方法可以在 Databricks 上执行此操作，以便我可以重用代码而不仅仅是复制和粘贴？

git git-submodules dependency-management azure-databricks databricks-repos

2022-02-15T16:11:40.410

0 投票

1 回答

21 浏览

amazon-web-services - 如何使用 ci/cd 管道将 bitbucket 存储库自动化到 databricks 存储库

有人可以帮助解决如何自动化 ci/cd 管道以在来自 bitbucket 存储库的 databricks 存储库中更新和创建新文件。

amazon-web-services jenkins jenkins-pipeline databricks databricks-repos

2022-02-17T12:10:29.300

0 投票

1 回答

9 浏览

databricks - 在 Repos 中使用 Databricks CLI 导入 CSV 文件

我们正在使用 Databricks 生成 ETL 脚本。一个步骤要求我们将小型 csvs 上传到 Repos 文件夹中。我可以使用 Repos GUI 中的导入窗口手动执行此操作。但是，我想使用 databricks cli 以编程方式执行此操作。这可能吗？我曾尝试使用 Workspace API，但这仅适用于源代码文件。

databricks databricks-cli databricks-repos

2022-02-28T15:26:05.377

1 2 3 4 5 6 7 8 9 10

问题标签 [databricks-repos]

Reference