问题标签 [happybase]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - 快乐的基础集成不适用于 hbase
我能够连接到我的 hbase
这两个命令可以正常工作。但是当我运行下面的 cammand 我得到以下错误
我正在使用Hbase 版本:1.1.2.2.3.4.0-3485
如果您可以建议任何我可以用来使用 python 为 hbase 编码的包,请提供帮助
python - Hbase超时错误不断发生
我正在使用happybase
python 访问 Hbase。
我有一个非常简单的功能:
当我运行此功能时,它可以正常工作几分钟,然后我开始收到超时错误。
解决方法是进入 Hbase 控制台并打开一个新的节俭端口,然后指向它。
这再次工作了几分钟,然后我再次收到超时错误。
不是一个好的解决方法,知道为什么会发生这种情况吗?
编辑
这是错误:
python - HappyBase - 不显示结果
我正在尝试使用 HappyBase 从 python 连接到 hbase
这是正在尝试的代码
当我尝试访问表格时也是如此
有人可以帮助我了解发生了什么问题。
顺便说一句,我正在使用:
java 版本 "1.8.0_60"
Java(TM) SE Runtime Environment (build1.8.0_60-b27)
Java HotSpot(TM) 64-Bit Server VM(build 25.60-b23,混合模式)
问候
python - 使用 rows 函数的 Happybase 过滤
我想rows
用 Happybase 对一些已知的行键执行查询并添加一个值过滤器,以便只返回与过滤器匹配的行。
在 HBase shell 中,您可以为 get 命令提供过滤器,如下所示:
在 Happybase 中,您可以向scan
命令添加过滤器,但我在rows
查询中看不到该选项。以下是它的工作原理scan
:
有没有办法rows
使用 Happybase(或任何其他 Python HBase 客户端库)执行过滤查询(对于可能随机排序的行键)?
我想象它看起来像这样(但没有过滤器参数):
python - 根据时间戳搜索最新的行
我正在寻找如何搜索由 Nutch 2.3 加载的 hbase 表中的最新行。
我使用happybase和thrift,我发现的唯一例子是在这个链接https://happybase.readthedocs.io/en/happybase-0.4/tutorial.html#using-table-namespaces
python - happybase table.scan 中的 row_prefix 不适用于 str 变量
我在 table.scan 方法中使用 row_prefix 来过滤行。问题是该函数在使用字符串文字时起作用。但是,如果使用变量,则不会返回任何数据。
例如,以下代码正在工作
但是下面的代码没有返回任何数据
第二种情况没有错误。
python - 如何处理 BigTable Scan InvalidChunk 异常?
我正在尝试扫描某些行“脏”的 BigTable 数据 - 但这取决于扫描失败,导致(序列化?)InvalidChunk异常。代码如下:
省略一些列或将行限制为更少或指定开始和停止键,允许扫描成功。我无法从堆栈跟踪中检测到哪些值有问题 - 它因列而异 - 扫描失败。这使得从源头清理数据成为问题。
当我利用 python 调试器时,我看到块(类型为google.bigtable.v2.bigtable_pb2.CellChunk)没有值(它是 NULL / undefined):
我可以通过 rowkey 的 HBase shell 确认这一点(我从self._row.row_key得到)
所以问题就变成了:BigTable 如何扫描过滤掉具有未定义/空/空值的列?
我从两个谷歌云 API 中都遇到了同样的问题,它们返回生成器,这些生成器在 gRPC 上将数据作为块内部流式传输:
- 谷歌云。happybase .table.Table# scan ()
- 谷歌云。bigtable .table.Table# read_rows ()。消费全部()
缩写的堆栈跟踪如下:
你能告诉我如何从 Python 扫描 BigTable,忽略/记录引发 InvalidChunk 的脏行吗? (尝试......除了无法绕过生成器,它位于谷歌云 API row_data PartialRowsData类中)
另外,你能告诉我在 BigTable 中对表扫描进行分块流式处理的代码吗?似乎不支持 HappyBase batch_size和scan_batching 。
python - 如何使用happybase在两个时间戳范围之间扫描?
我正在尝试使用happybase 获取过去24 小时内插入的项目(及其数量)。我能想到的就是使用时间戳来做到这一点,但我不知道如何做到这一点。
我可以连接到 hbase
python - HBase-HappyBase:较大文件的套接字超时错误 - 适用于较小的文件
我使用以下使用happybase模块的python代码来更新hbase。这对于少于 30k 记录的文件非常有效。但是超过 30k-35k 时会抛出超时错误。我通过编辑 hbase_site.xml 和其他一些东西尝试了在其他堆栈问题中通知的选项。但没有帮助。有没有人遇到过同样的问题?
我对较大文件的错误:
这是如何解决的:
python - 如何通过happybase同时从hbase获取大量数据?
我正在尝试从 hbase 获取数据,如下所示:
sleep(0.5) 表示休息。如您所见,代码运行良好但速度太慢,给我们集群带来了很大的压力。因为密钥的长度超过 4000 万。
所以,我想知道有什么方法可以让我同时获得数据批量大小。我尝试使用 table.rows(),但是失败了.....我是新手,真的如何生成批量数据同时通过循环。