hadoop - hbase 中的数字类型值无法被 hive 识别

Question

我有一个 hive/hbase 集成表，定义如下。

create table user_c(user_id int, c_name string, c_kind string, c_industry string,
c_jobtitle string, c_workyear int, c_title string, c_company string)
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:c_name,cf1:c_kind,cf1:c_industry,cf1:c_jobtitle,cf1:c_workyear,cf1:c_title,cf1:c_company")
TBLPROPERTIES ("hbase.table.name" = "user_c");

在我的 java 代码中，我创建了一个Put并用从 db 读取的值填充它。代码如下所示：

final Put to = new Put(getByte(from, keyColumn));
for (final IColumn column : table.getColumns()) {
    if (column.equals(keyColumn)) continue;
    to.add(Bytes.toBytes(column.getColumnFamily()), Bytes.toBytes(column.getDestName()), getByte(from, column));
}
return to;

是一种将getByte值转换为的方法byte[]。看起来像

byte[] getByte(final Map<String, Object> map, IColumn column) {
    final Object val = map.get(column.getName());
    if (val instanceof Integer) {
        return Bytes.toBytes((Integer) val);
    }
    ...
}

然后放到hbase中。

我可以从 hbase shell 扫描记录。

hbase(main):001:0> scan 'user_c'
ROW                                COLUMN+CELL                                                                                      
\x00\x0A\x07\x0D                  column=cf1:c_workyear, timestamp=1350298280554, value=\x00\x00\x07\xD8                         
\x00\x0A\x07\x0D                  column=cf1:c_industry, timestamp=1350298280554, value=120
...

Row key 是一种Integer类型，当被方法处理时应该自动解箱为原始int类型getByte。不仅行键，而且其他数字类型列(cf1:c_workyear) 都显示\x00\x0A\x07\x0D为字节数组。

同时Stringtype column(cf1:c_industry) 只显示它的值。

这样可以吗？

当我从 hive 查询记录时，它只给我一个NULL而不是数字类型列的值。

hive> select c_industry, c_workyear from user_c limit 1;
Total MapReduce CPU Time Spent: 10 seconds 370 msec
OK
120     NULL
Time taken: 46.063 seconds

似乎 c_workyear 值无法被 hive 识别。我想这是因为那种类型不正确。但是不应该将int字节数组存储为int值，而不是字节数组吗？

有人知道如何解决这个问题吗？

非常感谢。

score 5 · Accepted Answer

在你的表定义中试试这个

"hbase.columns.mapping" = ":key,cf1:c_name,cf1:c_kind,cf1:c_industry#b,cf1:c_jobtitle,cf1:c_workyear#b,cf1:c_title,cf1:c_company"

注意使用#bafter binary fields 。我们已经成功使用了一段时间了

score 0 · Accepted Answer

我们遇到了同样的问题，并在列映射参数中使用#b 解决了 - ("hbase.columns.mapping" = ":key,C1:Name,C1:marks#b")

列“标记”存储为实际长类型的 bytearray。

@scarcer，以字符串类型存储所有字段将不是一个有效的解决方案。

hadoop - hbase 中的数字类型值无法被 hive 识别

2 回答 2

Related

Reference