hbase - Hbase 更新用例

Question

我有以下 hbase 用例：一个 Hbase 表，带有一个行键（使用 md5 哈希的组合构建）和 2 个列族。从逻辑上讲，该表存储句子。该表有数亿条记录。

我有一个连接到这个 hbase 表的 webapp，需要根据某些条件随机导出句子。目前，所有这些条件都可以通过使用 rowkey 来查找。通常，一个导出仅包含几百个句子。重要的限制是，一旦导出了某些段，它们不应出现在任何后续导出中。

所以我的问题与此有关 - 我应该如何确保不会再次导出相同的段？

我应该在每次导出后通过更新标志来“标记”导出的段吗？这样做的缺点是，在查看哪些段满足我的条件时，我不能只使用行键来识别这些记录，还不能使用那个标志。因此，我需要使用过滤器，我知道过滤器要慢得多。

有更好的方法吗？

score 0 · Accepted Answer

谁为您传递行键？你能确保他发送唯一的行键吗？

如果您不需要导出后的数据。为什么不从 hbase 表中完全删除那句话呢？

如果您对上述两个问题的回答都是“否”，那么除了在您的表中保留一个标志之外别无他法。

1 回答 1