hive - 如何反序列化 Hive 中的 ProtoBuf 序列化 HBase 列？

Question

我已经使用 ProtoBuf 序列化类并存储在 HBase 列中。我想减少简单聚合的 Map Reduce 作业的数量，所以我需要类似 SQL 的工具来查询数据。如果我使用 Hive，是否可以扩展 HBaseStorageHandler 并为每个表编写我们自己的 Serde？或者任何其他好的解决方案都是可用的。

更新：

我将 HBase 表创建为

创建“蜂巢：用户”，“我”

并从 java api 插入用户数据，

 public static final byte[] INFO_FAMILY = Bytes.toBytes("i");
 private static final byte[] USER_COL = Bytes.toBytes(0);
 public Put mkPut(User u)
    {
        Put p = new Put(Bytes.toBytes(u.userid));
        p.addColumn(INFO_FAMILY, USER_COL, UserConverter.fromDomainToProto(u).toByteArray());
        return p;
    }

我的扫描结果如下：

hbase(main):016:0> scan 'hive:users'
ROW                                COLUMN+CELL
 kim123                            column=i:\x00, timestamp=1521409843085, value=\x0A\x06kim123\x12\x06kimkim\x1A\x10kim123@gmail.com
1 row(s) in 0.0340 seconds

当我在 Hive 中查询表时，我看不到任何记录。这是我用来创建表的命令。

create external table users(userid binary, userobj binary) 
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
with serdeproperties("hbase.columns.mapping" = ":key, i:0", "hbase.table.default.storage.type" = "binary") 
tblproperties("hbase.table.name" = "hive:users");

当我查询配置单元表时，我没有看到从 hbase 插入的记录。

你能告诉我这里有什么问题吗？

score 0 · Accepted Answer

您可以尝试编写一个 UDF，它将采用二进制 protobuf 并将其转换为某种可读结构（逗号分隔或 json）。您必须确保将值映射为二进制数据。

hive - 如何反序列化 Hive 中的 ProtoBuf 序列化 HBase 列？

更新：

1 回答 1

Related

Reference