是否有人有使用 HBaseStorage 在 Dataproc 上通过 Pig 从 Bigtable 加载数据的经验或成功?
这是我正在尝试运行的一个非常简单的 Pig 脚本。它失败并显示一个错误,表明它找不到 BigtableConnection 类,我想知道我可能缺少什么设置才能成功从 Bigtable 加载数据。
raw = LOAD 'hbase://my_hbase_table'
USING org.apache.pig.backend.hadoop.hbase.HBaseStorage(
'cf:*', '-minTimestamp 1490104800000 -maxTimestamp 1490105100000 -loadKey true -limit 5')
AS (key:chararray, data);
DUMP raw;
我设置集群的步骤:
- 推出 Bigtable 集群(my_bt);创建并填充 my_hbase_table
- 通过 cloud.google.com Cloud Dataproc 控制台启动了 Dataproc 集群 (my_dp)
- 按照https://cloud.google.com/bigtable/docs/installing-hbase-shell上的说明在 Dataproc 主服务器 (/opt/hbase-1.2.1) 上安装 HBase shell
hbase-site.xml
为 my_bt 和 BigtableConnection 类添加了属性- 创建的文件
t.pig
包含上面列出的内容 - 通过命令调用 Pig:
gcloud beta dataproc jobs submit pig --cluster my_dp --file t.pig --jars /opt/hbase-1.2.1/lib/bigtable/bigtable-hbase-1.2-0.9.5.1.jar
- 出现以下错误,指示未找到 BigtableConnection 类:
2017-03-21 15:30:48,029 [JobControl] 错误 org.apache.hadoop.hbase.mapreduce.TableInputFormat - java.io.IOException: java.lang.ClassNotFoundException: com.google.cloud.bigtable.hbase1_2.BigtableConnection