2

我正在寻找如何搜索由 Nutch 2.3 加载的 hbase 表中的最新行。

我使用happybase和thrift,我发现的唯一例子是在这个链接https://happybase.readthedocs.io/en/happybase-0.4/tutorial.html#using-table-namespaces

4

1 回答 1

2

我不知道 python,所以我在 hbase shell 中解释这个。或多或少你应该能够在 python 中做到这一点。

Python方式:将自纪元以来的时间戳转换为datetime.datetime

如何获取最新的时间戳以通过过滤器?

将数据记录到时间戳要将日期“08/08/16 20:56:29”从 hbase 日志转换为时间戳,请执行以下操作:

     hbase(main):021:0> import java.text.SimpleDateFormat
                   hbase(main):022:0> import java.text.ParsePosition
                    hbase(main):023:0> SimpleDateFormat.new("yy/MM/dd HH:mm:ss").parse("08/08/16 20:56:29", ParsePosition.new(0)).getTime()
 => 1218920189000

在上面之后你可以尝试这样的事情:

scan 't1', {COLUMNS => 'c1', TIMERANGE => [1303668804, 1303668904]}


hbase(main):001:0> scan

以下是此命令的一些帮助:扫描表;传递表名和可选的扫描仪规范字典。扫描仪规格可能包括以下一项或多项:TIMERANGE、FILTER、LIMIT、STARTROW、STOPROW、TIMESTAMP、MAXLENGTH 或 COLUMNS、CACHE

一些例子:

  hbase> scan '.META.'
  hbase> scan '.META.', {COLUMNS => 'info:regioninfo'}
  hbase> scan 't1', {COLUMNS => ['c1', 'c2'], LIMIT => 10, STARTROW => 'xyz'}
  hbase> scan 't1', {COLUMNS => 'c1', TIMERANGE => [1303668804, 1303668904]}
  hbase> scan 't1', {FILTER => "(PrefixFilter ('row2') AND (QualifierFilter (>=, 'binary:xyz'))) AND (TimestampsFilter ( 123, 456))"}
  hbase> scan 't1', {FILTER => org.apache.hadoop.hbase.filter.ColumnPaginationFilter.new(1, 0)}
于 2016-10-01T13:52:31.553 回答