0

我正在尝试从 hbase 获取数据,如下所示:

key = pd.read_sql('select key from table',hive_engine)
table = connection.table('games_ut')

res = {}
n = 0
for key in table.key:
    res[str(key)] = table.row(b'{key}'.format(key=key))
    n += 1
    if n % 100000 == 0:
        print(str(n) + " has been read,need a sleep!")
        sleep(0.5)

sleep(0.5) 表示休息。如您所见,代码运行良好但速度太慢,给我们集群带来了很大的压力。因为密钥的长度超过 4000 万。

所以,我想知道有什么方法可以让我同时获得数据批量大小。我尝试使用 table.rows(),但是失败了.....我是新手,真的如何生成批量数据同时通过循环。

4

1 回答 1

0

经过我的尝试......我知道该怎么做。

只需使用行并将列表作为键传递...

于 2017-01-12T14:43:41.407 回答