我有一个大小为 10 PB 的数据集。我当前的数据在我使用 Spark的HBaseHbaseContext中,但性能不佳。
将数据从Spark 迁移HbaseContext到HiveContextSpark 会有用吗?
我有一个大小为 10 PB 的数据集。我当前的数据在我使用 Spark的HBaseHbaseContext中,但性能不佳。
将数据从Spark 迁移HbaseContext到HiveContextSpark 会有用吗?
HiveContext 用于从 Hive 读取数据。因此,如果您切换到 HiveContext,则数据必须在 Hive 中。我不认为你正在尝试什么会奏效。
在我的用例中,我使用带有 HBase 连接的 mapPartition。关键是要知道如何拆分。
对于扫描,您可以创建自己的扫描仪,带有前缀等......对于获取它更加容易。对于puts,您可以创建一个puts 列表然后批量插入。
我不使用任何 HBaseContext 并且我在 12 亿行的数据库上具有相当不错的性能。