0

从 google-dataproc 集群使用/安装 python google cloud api(例如 pub-sub)的正确方法是什么?例如,如果我在集群上使用 zeppelin/pyspark 并且我想使用 pub-sub api,我应该如何准备它?

我不清楚在默认集群配置期间安装了什么和未安装什么,以及我是否应该/如何尝试为谷歌云 api 安装 python 库。

我还意识到可能需要设置范围/身份验证。需要明确的是,我可以在本地使用 api,但我不确定从集群访问 api 的最干净的方法是什么,我不想执行任何不必要的步骤。

4

1 回答 1

0

通常,目前,您需要为各种 Google API 带来自己的客户端库,除非使用 Java 中的Google Cloud Storage 连接器BigQuery 连接器,或者通过 PySpark 中的 RDD 方法自动委托给 Java 实现。

对于身份验证,您应该简单地使用--scopes https://www.googleapis.com/auth/pubsub和/或--scopes https://www.googleapis.com/auth/cloud-platformDataproc 集群的虚拟机上的服务帐户将能够通过默认安装的凭据流进行身份验证以使用 PubSub。

于 2016-03-31T17:34:19.900 回答