问题标签 [happybase]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
846 浏览

python-2.7 - 快乐的基础集成不适用于 hbase

我能够连接到我的 hbase

这两个命令可以正常工作。但是当我运行下面的 cammand 我得到以下错误

我正在使用Hbase 版本:1.1.2.2.3.4.0-3485

如果您可以建议任何我可以用来使用 python 为 hbase 编码的包,请提供帮助

0 投票
2 回答
2076 浏览

python - Hbase超时错误不断发生

我正在使用happybasepython 访问 Hbase。

我有一个非常简单的功能:

当我运行此功能时,它可以正常工作几分钟,然后我开始收到超时错误。

解决方法是进入 Hbase 控制台并打开一个新的节俭端口,然后指向它。

这再次工作了几分钟,然后我再次收到超时错误。

不是一个好的解决方法,知道为什么会发生这种情况吗?

编辑

这是错误:

0 投票
1 回答
189 浏览

python - HappyBase - 不显示结果

我正在尝试使用 HappyBase 从 python 连接到 hbase

这是正在尝试的代码

当我尝试访问表格时也是如此

有人可以帮助我了解发生了什么问题。

顺便说一句,我正在使用:

java 版本 "1.8.0_60"
Java(TM) SE Runtime Environment (build1.8.0_60-b27)
Java HotSpot(TM) 64-Bit Server VM(build 25.60-b23,混合模式)

问候

0 投票
1 回答
1539 浏览

python - 使用 rows 函数的 Happybase 过滤

我想rows用 Happybase 对一些已知的行键执行查询并添加一个值过滤器,以便只返回与过滤器匹配的行。

在 HBase shell 中,您可以为 get 命令提供过滤器,如下所示:

在 Happybase 中,您可以向scan命令添加过滤器,但我在rows查询中看不到该选项。以下是它的工作原理scan

有没有办法rows使用 Happybase(或任何其他 Python HBase 客户端库)执行过滤查询(对于可能随机排序的行键)?

我想象它看起来像这样(但没有过滤器参数):

0 投票
1 回答
2945 浏览

python - 根据时间戳搜索最新的行

我正在寻找如何搜索由 Nutch 2.3 加载的 hbase 表中的最新行。

我使用happybase和thrift,我发现的唯一例子是在这个链接https://happybase.readthedocs.io/en/happybase-0.4/tutorial.html#using-table-namespaces

0 投票
1 回答
685 浏览

python - happybase table.scan 中的 row_prefix 不适用于 str 变量

我在 table.scan 方法中使用 row_prefix 来过滤行。问题是该函数在使用字符串文字时起作用。但是,如果使用变量,则不会返回任何数据。

例如,以下代码正在工作

但是下面的代码没有返回任何数据

第二种情况没有错误。

0 投票
1 回答
285 浏览

python - 如何处理 BigTable Scan InvalidChunk 异常?

我正在尝试扫描某些行“脏”的 BigTable 数据 - 但这取决于扫描失败,导致(序列化?)InvalidChunk异常。代码如下:

省略一些列或将行限制为更少或指定开始和停止键,允许扫描成功。我无法从堆栈跟踪中检测到哪些值有问题 - 它因列而异 - 扫描失败。这使得从源头清理数据成为问题。

当我利用 python 调试器时,我看到块(类型为google.bigtable.v2.bigtable_pb2.CellChunk)没有值(它是 NULL / undefined):

我可以通过 rowkey 的 HBase shell 确认这一点(我从self._row.row_key得到)

所以问题就变成了:BigTable 如何扫描过滤掉具有未定义/空/空值的列?

我从两个谷歌云 API 中都遇到了同样的问题,它们返回生成器,这些生成器在 gRPC 上将数据作为块内部流式传输:

  • 谷歌云。happybase .table.Table# scan ()
  • 谷歌云。bigtable .table.Table# read_rows ()。消费全部()

缩写的堆栈跟踪如下:

你能告诉我如何从 Python 扫描 BigTable,忽略/记录引发 InvalidChunk 的脏行吗?尝试......除了无法绕过生成器,它位于谷歌云 API row_data PartialRowsData类中)

另外,你能告诉我在 BigTable 中对表扫描进行分块流式处理的代码吗?似乎不支持 HappyBase batch_sizescan_batching 。

0 投票
1 回答
836 浏览

python - 如何使用happybase在两个时间戳范围之间扫描?

我正在尝试使用happybase 获取过去24 小时内插入的项目(及其数量)。我能想到的就是使用时间戳来做到这一点,但我不知道如何做到这一点。

我可以连接到 hbase

0 投票
1 回答
654 浏览

python - HBase-HappyBase:较大文件的套接字超时错误 - 适用于较小的文件

我使用以下使用happybase模块的python代码来更新hbase。这对于少于 30k 记录的文件非常有效。但是超过 30k-35k 时会抛出超时错误。我通过编辑 hbase_site.xml 和其他一些东西尝试了在其他堆栈问题中通知的选项。但没有帮助。有没有人遇到过同样的问题?

我对较大文件的错误:


这是如何解决的:

0 投票
1 回答
269 浏览

python - 如何通过happybase同时从hbase获取大量数据?

我正在尝试从 hbase 获取数据,如下所示:

sleep(0.5) 表示休息。如您所见,代码运行良好但速度太慢,给我们集群带来了很大的压力。因为密钥的长度超过 4000 万。

所以,我想知道有什么方法可以让我同时获得数据批量大小。我尝试使用 table.rows(),但是失败了.....我是新手,真的如何生成批量数据同时通过循环。