apache-spark - Spark HiveContext vs HbaseContext？

Question

我有一个大小为 10 PB 的数据集。我当前的数据在我使用 Spark的HBaseHbaseContext中，但性能不佳。

将数据从Spark 迁移HbaseContext到HiveContextSpark 会有用吗？

score 0 · Accepted Answer

HiveContext 用于从 Hive 读取数据。因此，如果您切换到 HiveContext，则数据必须在 Hive 中。我不认为你正在尝试什么会奏效。

score 0 · Accepted Answer

在我的用例中，我使用带有 HBase 连接的 mapPartition。关键是要知道如何拆分。

对于扫描，您可以创建自己的扫描仪，带有前缀等......对于获取它更加容易。对于puts，您可以创建一个puts 列表然后批量插入。

我不使用任何 HBaseContext 并且我在 12 亿行的数据库上具有相当不错的性能。

2 回答 2