我正在寻找如何搜索由 Nutch 2.3 加载的 hbase 表中的最新行。
我使用happybase和thrift,我发现的唯一例子是在这个链接https://happybase.readthedocs.io/en/happybase-0.4/tutorial.html#using-table-namespaces
我不知道 python,所以我在 hbase shell 中解释这个。或多或少你应该能够在 python 中做到这一点。
如何获取最新的时间戳以通过过滤器?
将数据记录到时间戳要将日期“08/08/16 20:56:29”从 hbase 日志转换为时间戳,请执行以下操作:
hbase(main):021:0> import java.text.SimpleDateFormat
hbase(main):022:0> import java.text.ParsePosition
hbase(main):023:0> SimpleDateFormat.new("yy/MM/dd HH:mm:ss").parse("08/08/16 20:56:29", ParsePosition.new(0)).getTime()
=> 1218920189000
在上面之后你可以尝试这样的事情:
scan 't1', {COLUMNS => 'c1', TIMERANGE => [1303668804, 1303668904]}
hbase(main):001:0> scan
以下是此命令的一些帮助:扫描表;传递表名和可选的扫描仪规范字典。扫描仪规格可能包括以下一项或多项:TIMERANGE、FILTER、LIMIT、STARTROW、STOPROW、TIMESTAMP、MAXLENGTH 或 COLUMNS、CACHE
hbase> scan '.META.'
hbase> scan '.META.', {COLUMNS => 'info:regioninfo'}
hbase> scan 't1', {COLUMNS => ['c1', 'c2'], LIMIT => 10, STARTROW => 'xyz'}
hbase> scan 't1', {COLUMNS => 'c1', TIMERANGE => [1303668804, 1303668904]}
hbase> scan 't1', {FILTER => "(PrefixFilter ('row2') AND (QualifierFilter (>=, 'binary:xyz'))) AND (TimestampsFilter ( 123, 456))"}
hbase> scan 't1', {FILTER => org.apache.hadoop.hbase.filter.ColumnPaginationFilter.new(1, 0)}