目前我正在 Google DataProc 上开发 Spark 应用程序。我经常需要更新 Python 包。在配置期间,我运行以下命令:
echo "Downloading and extracting source code..."
gsutil cp gs://mybucket/mypackage.tar.gz ./
tar -xvzf mypackage.tar.gz
cd ./mypackage
echo "Installing requirements..."
sudo apt-get install -y python-pip
python setup.py install
但是,在集群内分发更新包的最有效方法是什么?是否已经内置了任何自动化功能(例如 Chef)?
目前,我做了两件不同的事情:部署和引导一个新集群(需要时间)或 SSH 到每个节点,然后复制 + 安装更新的包。