0

我有一个大小为 10 PB 的数据集。我当前的数据在我使用 Spark的HBaseHbaseContext中,但性能不佳。

将数据从Spark 迁移HbaseContextHiveContextSpark 会有用吗?

4

2 回答 2

0

HiveContext 用于从 Hive 读取数据。因此,如果您切换到 HiveContext,则数据必须在 Hive 中。我不认为你正在尝试什么会奏效。

于 2018-10-22T11:48:28.553 回答
0

在我的用例中,我使用带有 HBase 连接的 mapPartition。关键是要知道如何拆分。

对于扫描,您可以创建自己的扫描仪,带有前缀等......对于获取它更加容易。对于puts,您可以创建一个puts 列表然后批量插入。

我不使用任何 HBaseContext 并且我在 12 亿行的数据库上具有相当不错的性能。

于 2018-10-22T12:51:28.137 回答