1

我们有一个要求,我们需要访问托管在我们的 Azure Databricks 笔记本中的 github 私有 repo 上的文件。目前我们正在使用 curl 命令使用用户的个人访问令牌来执行此操作。

curl -H 'Authorization: token INSERTACCESSTOKENHERE' -H 'Accept: 
application/vnd.github.v3.raw' -O -L 
https://api.github.com/repos/*owner*/*repo*/contents/*path*

有没有办法我们可以避免使用 PAT 并使用部署密钥或任何东西?

4

2 回答 2

1

从 2021 年夏季开始,databricks 引入了 git repos 功能的集成。更多信息:https ://docs.microsoft.com/en-us/azure/databricks/repos

如果您在 repo 中添加您的文件(excel、json 等),那么您可以使用相对路径来访问它并读取它。

例如pd.read_excel("./test_data.xlsx")

请注意,您需要一个具有 8.4+(或 9.1+?)版本的数据块的集群

您还可以通过执行以下命令来测试您当前的工作目录。 os.getcwd()

如果您已正确集成 repo,那么您的结果应该类似于:

/Workspace/Repos/george@myemail.com/REPO_FOLDER/analysis

否则它将是这样的:/databricks/driver

于 2022-01-18T13:32:34.647 回答
0

集成 Git 和 Azure 数据块。

文档展示了如何集成 Git 和 azure databricks

Step1:获取文件的原始 URL。

Step2:用于wget访问文件:

wget https://github.com/githubtraining/hellogitworld/blob/master/resources/labels.properties
于 2021-09-21T11:39:07.173 回答