我在 Google Cloud Dataproc 集群上使用 Spark,我想在 PySpark 作业中访问 Bigtable。我们是否有任何用于 Spark 的 Bigtable 连接器,例如 Google BigQuery 连接器?
我们如何从 PySpark 应用程序访问 Bigtable?
我在 Google Cloud Dataproc 集群上使用 Spark,我想在 PySpark 作业中访问 Bigtable。我们是否有任何用于 Spark 的 Bigtable 连接器,例如 Google BigQuery 连接器?
我们如何从 PySpark 应用程序访问 Bigtable?
Cloud Bigtable 通常最好使用Apache HBase API从 Spark 访问。
HBase 目前只提供 Hadoop MapReduce I/O 格式。这些可以使用SparkContext.newAPIHadoopRDD
方法从 Spark(或 PySpark)访问。然而,将记录转换成 Python 中可用的东西是很困难的。
HBase 正在开发 Spark SQL API,但尚未在发布版本中集成这些 API。Hortonworks 有一个Spark HBase 连接器,但它针对 Spark 1.6(需要 Cloud Dataproc 1.0 版)进行编译,我还没有使用过它,所以我无法说出它的易用性。
或者,您可以使用基于 Python 的 Bigtable 客户端,并简单地使用 PySpark 进行并行处理。