我有以下 hbase 用例:一个 Hbase 表,带有一个行键(使用 md5 哈希的组合构建)和 2 个列族。从逻辑上讲,该表存储句子。该表有数亿条记录。
我有一个连接到这个 hbase 表的 webapp,需要根据某些条件随机导出句子。目前,所有这些条件都可以通过使用 rowkey 来查找。通常,一个导出仅包含几百个句子。重要的限制是,一旦导出了某些段,它们不应出现在任何后续导出中。
所以我的问题与此有关 - 我应该如何确保不会再次导出相同的段?
我应该在每次导出后通过更新标志来“标记”导出的段吗?这样做的缺点是,在查看哪些段满足我的条件时,我不能只使用行键来识别这些记录,还不能使用那个标志。因此,我需要使用过滤器,我知道过滤器要慢得多。
有更好的方法吗?