集群启动时,如何在我的 Dataproc 集群上自动安装 Python 库?这将省去我手动登录主节点和/或工作节点以手动安装我需要的库的麻烦。
也很高兴知道这种自动安装是否只能在主服务器上而不是在工作人员上安装东西。
集群启动时,如何在我的 Dataproc 集群上自动安装 Python 库?这将省去我手动登录主节点和/或工作节点以手动安装我需要的库的麻烦。
也很高兴知道这种自动安装是否只能在主服务器上而不是在工作人员上安装东西。
初始化操作是执行此操作的最佳方式。初始化操作是在创建集群时运行的 shell 脚本。这将允许您自定义集群,例如安装 Python 库。这些脚本必须存储在 Google Cloud Storage 中,并且可以在通过 Google Cloud SDK 或 Google Developers Console 创建集群时使用。
这是一个示例初始化操作,仅在主节点上安装 Python大熊猫创建集群。
#!/bin/sh
ROLE=$(/usr/share/google/get_metadata_value attributes/role)
if [[ "${ROLE}" == 'Master' ]]; then
apt-get install python-pandas -y
fi
从这个脚本中可以看出,可以识别节点的角色,/usr/share/google/get_metadata_value attributes/role
然后专门在主(或工作)节点上执行操作。
您可以查看Google Cloud Dataproc 文档了解更多详细信息