5

我在 Google Cloud Dataproc 集群上使用 Spark,我想在 PySpark 作业中访问 Bigtable。我们是否有任何用于 Spark 的 Bigtable 连接器,例如 Google BigQuery 连接器?

我们如何从 PySpark 应用程序访问 Bigtable?

4

1 回答 1

6

Cloud Bigtable 通常最好使用Apache HBase API从 Spark 访问。

HBase 目前只提供 Hadoop MapReduce I/O 格式。这些可以使用SparkContext.newAPIHadoopRDD方法从 Spark(或 PySpark)访问。然而,将记录转换成 Python 中可用的东西是很困难的。

HBase 正在开发 Spark SQL API,但尚未在发布版本中集成这些 API。Hortonworks 有一个Spark HBase 连接器,但它针对 Spark 1.6(需要 Cloud Dataproc 1.0 版)进行编译,我还没有使用过它,所以我无法说出它的易用性。

或者,您可以使用基于 Python 的 Bigtable 客户端,并简单地使用 PySpark 进行并行处理。

于 2016-11-02T15:43:47.463 回答