0

我有一个 CSV 文件,代表我希望上传到 Apache Hbase 实例的大型矩阵(在 AWS EMR 上运行,但这没关系)。CSV 包含 ~15000 列和 ~50000 行。矩阵的单元格值是整数。

CSV 看起来像这样:

ROW_KEY col1 col2 col3 .... col15000
row1 0    1  125  456
row2 23   23  45  ...
row3 ...  ...  ...
...
row50000

我计划将我的 HBase 模式保存在一个列族中,每个列(col1、col2 等)作为列限定符。

我研究过在 python 脚本中迭代 CSV 并使用happybase 之类的东西上传每一行,但这似乎需要相当长的时间。

我查看了ImportTSV工具,但看起来该工具需要一个参数来详细说明所有列名,例如:

Dimporttsv.columns=HBASE_ROW_KEY,cf1:name,cf2:exp

详细说明 args 中的数万列似乎不是一个好的解决方案。

4

0 回答 0