我有一个大小为 10 PB 的数据集。我当前的数据在我使用 Spark的HBaseHbaseContext
中,但性能不佳。
将数据从Spark 迁移HbaseContext
到HiveContext
Spark 会有用吗?
我有一个大小为 10 PB 的数据集。我当前的数据在我使用 Spark的HBaseHbaseContext
中,但性能不佳。
将数据从Spark 迁移HbaseContext
到HiveContext
Spark 会有用吗?
HiveContext 用于从 Hive 读取数据。因此,如果您切换到 HiveContext,则数据必须在 Hive 中。我不认为你正在尝试什么会奏效。
在我的用例中,我使用带有 HBase 连接的 mapPartition。关键是要知道如何拆分。
对于扫描,您可以创建自己的扫描仪,带有前缀等......对于获取它更加容易。对于puts,您可以创建一个puts 列表然后批量插入。
我不使用任何 HBaseContext 并且我在 12 亿行的数据库上具有相当不错的性能。