google-cloud-bigtable - 使用 Google Dataproc 在 Bigtable 中导入 CSV 数据

Question

我正在尝试使用 Dataproc 集群的实例将大型 CSV 文件导入 HDFS，然后将它们导出为SequenceFile格式，最后将最新的导入 Bigtable，如下所述： https ://cloud.google.com/bigtable /docs/exporting-importing

我最初将 CSV 文件作为外部表导入到 Hive 中，然后通过将它们插入到 SequenceFile 支持的表中来导出它们。

但是（可能是因为 Hive 1.0 似乎附带了 dataproc？），我遇到了这里提到的强制转换异常错误：Bigtable import error

我似乎无法在 dataproc 主 VM 上启动并运行 HBase shell 或 ZooKeeper，因此我无法从 CLI 运行简单的导出作业。

score 2 · Accepted Answer

您链接到的导入说明是从现有 HBase 部署中导入数据的说明。

如果您使用的输入格式是 CSV，那么创建 SequenceFiles 可能是一个不必要的步骤。编写一个 Hadoop MapReduce 来处理 CSV 文件并直接写入 Cloud Bigtable 怎么样？数据流在这里也很合适。

1 回答 1