3

我正在尝试使用 Dataproc 集群的实例将大型 CSV 文件导入 HDFS,然后将它们导出为SequenceFile格式,最后将最新的导入 Bigtable,如下所述: https ://cloud.google.com/bigtable /docs/exporting-importing

我最初将 CSV 文件作为外部表导入到 Hive 中,然后通过将它们插入到 SequenceFile 支持的表中来导出它们。

但是(可能是因为 Hive 1.0 似乎附带了 dataproc?),我遇到了这里提到的强制转换异常错误:Bigtable import error

我似乎无法在 dataproc 主 VM 上启动并运行 HBase shell 或 ZooKeeper,因此我无法从 CLI 运行简单的导出作业。

  1. 有没有另一种方法可以从 dataproc 导出与 bigtable 兼容的序列文件?

  2. 从 Dataproc VM 主节点运行 HBase 和 ZooKeeper 的正确配置是什么?

4

1 回答 1

2

您链接到的导入说明是从现有 HBase 部署中导入数据的说明。

如果您使用的输入格式是 CSV,那么创建 SequenceFiles 可能是一个不必要的步骤。编写一个 Hadoop MapReduce 来处理 CSV 文件并直接写入 Cloud Bigtable 怎么样?数据流在这里也很合适。

在此处查看示例: https ://github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/master/java

于 2015-10-01T20:27:54.987 回答