8

注意:几个小时前,我开始使用 HBase,我来自 RDBMS 背景:P

我有一个类似 RDBMS 的表 CUSTOMERS 具有以下列:

  1. CUSTOMER_ID 字符串
  2. CUSTOMER_NAME STRING
  3. CUSTOMER_EMAIL 字符串
  4. CUSTOMER_ADDRESS 字符串
  5. CUSTOMER_MOBILE STRING

我想到了以下 HBase 等效项:

表:客户行键:客户 ID

列族:CUSTOMER_INFO

列:姓名电子邮件地址手机

从我读过的任何内容来看,RDBMS 表中的主键与HBase 表的行键大致相似。因此,我想保留 CUSTOMER_ID 作为行键。

我的问题既愚蠢又直截了当:

  1. 不管我是使用 shell 命令还是 HBaseAdmin java 类,我如何定义行键?我在 shell 或 HBaseAdmin 类中都没有找到任何可以做的事情(像 HBaseAdmin.createSuperKey(...) 之类的东西)
  2. 给定一个 HBase 表,如何确定行键详细信息,即哪些值用作行键?
  3. 我知道 rowkey 设计是一件至关重要的事情。假设一个客户 id 接收 CUST_12345、CUST_34434 等值,HBase 将如何使用 rowkey 来决定特定行驻留在哪个区域(假设区域概念类似于 DB 水平分区)?

* * *编辑添加示例代码片段

我只是想在 shell 中使用“put”为客户表创建一行。我这样做了:

hbase(main):011:0> put  'CUSTOMERS', 'CUSTID12345', 'CUSTOMER_INFO:NAME','Omkar Joshi'
0 row(s) in 0.1030 seconds

hbase(main):012:0> scan 'CUSTOMERS'
ROW                              COLUMN+CELL
 CUSTID12345                     column=CUSTOMER_INFO:NAME, timestamp=1365600052104, value=Omkar Joshi
1 row(s) in 0.0500 seconds

hbase(main):013:0> put  'CUSTOMERS', 'CUSTID614', 'CUSTOMER_INFO:NAME','Prachi Shah', 'CUSTOMER_INFO:EMAIL','Prachi.Shah@lntinfotech.com'

ERROR: wrong number of arguments (6 for 5)

Here is some help for this command:
Put a cell 'value' at specified table/row/column and optionally
timestamp coordinates.  To put a cell value into table 't1' at
row 'r1' under column 'c1' marked with the time 'ts1', do:

  hbase> put 't1', 'r1', 'c1', 'value', ts1


hbase(main):014:0> put  'CUSTOMERS', 'CUSTID12345', 'CUSTOMER_INFO:EMAIL','Omkar.Joshi@lntinfotech.com'
0 row(s) in 0.0160 seconds

hbase(main):015:0>
hbase(main):016:0* scan 'CUSTOMERS'
ROW                              COLUMN+CELL
 CUSTID12345                     column=CUSTOMER_INFO:EMAIL, timestamp=1365600369284, value=Omkar.Joshi@lntinfotech.com
 CUSTID12345                     column=CUSTOMER_INFO:NAME, timestamp=1365600052104, value=Omkar Joshi
1 row(s) in 0.0230 seconds

由于投入最大。5 个参数,我无法弄清楚如何在一个 put 命令中插入整行。这导致同一行的增量版本不是必需的,我不确定 CUSTOMER_ID 是否被用作行键!谢谢并恭祝安康 !

4

1 回答 1

6
  1. 你不知道,关键(以及任何其他列)是一个字节数组,你可以在那里放任何你想要的东西——甚至封装子实体

  2. 不确定我是否理解-每个值都存储为键+列族+列限定符+日期时间+值-所以键就在那里。

  3. HBase 会计算出一条记录将去往哪个区域。当区域变得太大时,它会重新分区。此外,当垃圾太多时,HBase 也会不时执行压缩以重新整理文件。您可以在自己预先分区时控制它,这是您将来绝对应该考虑的事情。但是,由于您似乎刚刚开始使用 HBase,您可以从 HBase 开始处理它。一旦你更好地了解了你的使用模式和数据,你可能会想再过一遍。

您可以在此处此处阅读/听到一些有关 HBase 模式设计的信息

于 2013-04-10T07:06:38.833 回答