apache-spark - 如何在 PySpark 应用程序中读取和写入 Google Cloud Bigtable 中的数据？

Question

我在 Google Cloud Dataproc 集群上使用 Spark，我想在 PySpark 作业中访问 Bigtable。我们是否有任何用于 Spark 的 Bigtable 连接器，例如 Google BigQuery 连接器？

我们如何从 PySpark 应用程序访问 Bigtable？

score 6 · Accepted Answer

Cloud Bigtable 通常最好使用Apache HBase API从 Spark 访问。

HBase 目前只提供 Hadoop MapReduce I/O 格式。这些可以使用SparkContext.newAPIHadoopRDD方法从 Spark（或 PySpark）访问。然而，将记录转换成 Python 中可用的东西是很困难的。

HBase 正在开发 Spark SQL API，但尚未在发布版本中集成这些 API。Hortonworks 有一个Spark HBase 连接器，但它针对 Spark 1.6（需要 Cloud Dataproc 1.0 版）进行编译，我还没有使用过它，所以我无法说出它的易用性。

或者，您可以使用基于 Python 的 Bigtable 客户端，并简单地使用 PySpark 进行并行处理。

1 回答 1