在我们公司编排运行的 Databricks 笔记本时,我们通过实验学习了将笔记本(附属于 git 存储库)连接到 ADF 管道,但是,存在一个问题。
正如您在附在此问题笔记本上的照片中看到的那样,笔记本的路径取决于员工用户名,这在生产中不是一个稳定的解决方案。
解决它的方法是什么?
- 更新:主要问题是将员工用户名保持在生产环境之外,以避免将来出现任何故障。在 ADF 路径或辅助存储位置中,可以通过查找读取但仍位于生产端。
在我们公司编排运行的 Databricks 笔记本时,我们通过实验学习了将笔记本(附属于 git 存储库)连接到 ADF 管道,但是,存在一个问题。
正如您在附在此问题笔记本上的照片中看到的那样,笔记本的路径取决于员工用户名,这在生产中不是一个稳定的解决方案。
解决它的方法是什么?
您可以使用 Azure DevOps 源代码管理来管理开发人员和生产 Databrick 笔记本或 Git 中的其他相关代码/脚本/文档。在这里了解更多。
将笔记本保存在 Github 的逻辑分布式存储库中,并在笔记本活动中的 Azure 数据工厂中使用相同的路径。
如果您想在 Notebook 活动中传递动态路径,您应该使用笔记本文件路径的占位符列出类似文本/csv 文件或 SQL 表,其中所有笔记本路径都可用。
然后使用 ADF 中的Lookup活动来获取这些路径的列表,并将查找输出传递给ForEach活动,并在 ForEach 中有一个 Notebook 活动,并将路径(每次迭代)传递给参数。这样,您可以避免管道中的硬编码字段路径。