3

我在单独的 python 脚本中定义了一些帮助实用程序。我想让 DSX 笔记本可以使用脚本,所以我可以在单元格中调用它们,但我不想将脚本直接放入单元格中。

有哪些方法可以实现这一目标?

4

2 回答 2

3

如果您可以在公共 git 存储库上公开您的代码,您可以将您的代码转换为 python 包并将其保存在 github 中。有关示例包,请参见此处:一个简单的 Hello World setuptools 包并使用 pip 安装它

您可以使用以下命令直接从 github 安装它:

!pip install --user git+https://github.com/public_account/public_repo

私有 github 存储库

也应该可以在私有 github 存储库中使用与上述类似的方法,但需要一些额外的设置步骤和不同的 pip url 格式。例如

在 dsx 上生成 ssh 密钥

! ssh-keygen -b 2048 -t rsa -f ~/.ssh/id_rsa -q -N ""

将以下命令的输出添加到您的 github 帐户设置 :: SSH 和 GPG 密钥

! cat ~/.ssh/id_rsa.pub

接下来将 github ssh 密钥添加到 dsx:

! ssh-keyscan github.com >> ~/.ssh/known_hosts

重要提示:您应该手动验证导入的 github hosts 密钥是否真实。您可以使用以下命令查看导入的密钥:

! cat ~/.ssh/known_hosts

您现在可以使用 pip 安装:

! pip install --user git+ssh://git@github.com/private_account/private_repo

警告!上述方法有一些安全考虑。也就是说,任何可以访问您执行上述命令的 spark 服务的人都可以访问 git 私有存储库。


笔记:

理想情况下,在未来,我希望看到 dsx 支持编辑项目中的所有文件并将所有项目文件提交到 github,例如

于 2017-01-26T17:56:34.313 回答
1

一种选择是使用以下 API 调用将您的包从客户端计算机上传到您的 spark 帐户:

curl \
   -X PUT \
   -k \
   -u ${tenant_id}:${tenant_secret} \
   -H "X-Spark-service-instance-id: ${instance_id}" \
   --data-binary "@path_to_local_file" \
   ${cluster_master_url}/tenant/data/destination_file_name

可以通过登录到 Bluemix 控制台并导航到 Service Credentials 来获取上述变量。或者,您可以使用命令行cf工具来检索此信息。此Q/A提供了有关cf命令行方法的更多信息。

将您的包上传到 spark 服务后,您可以使用:

! pip install --user ${HOME}/data/destination_file_name

感谢Roland Weber的回答。

于 2017-01-27T09:42:10.413 回答