我正在尝试使用 Dataproc 集群的实例将大型 CSV 文件导入 HDFS,然后将它们导出为SequenceFile格式,最后将最新的导入 Bigtable,如下所述: https ://cloud.google.com/bigtable /docs/exporting-importing
我最初将 CSV 文件作为外部表导入到 Hive 中,然后通过将它们插入到 SequenceFile 支持的表中来导出它们。
但是(可能是因为 Hive 1.0 似乎附带了 dataproc?),我遇到了这里提到的强制转换异常错误:Bigtable import error
我似乎无法在 dataproc 主 VM 上启动并运行 HBase shell 或 ZooKeeper,因此我无法从 CLI 运行简单的导出作业。
有没有另一种方法可以从 dataproc 导出与 bigtable 兼容的序列文件?
从 Dataproc VM 主节点运行 HBase 和 ZooKeeper 的正确配置是什么?