编辑 我的用例是一个 Spark 流应用程序(spark 2.1.1 + Kafka 0.10.2.1),其中我从 Kafka 读取,并且每个消息/触发器都需要从 HBase 中提取数据。发布拉取,我需要对数据运行一些 SQL 语句(从 HBase 收到)
自然,我打算将处理(从 HBase 和 SQL 执行读取)推送到工作节点以实现并行性。
到目前为止,我尝试将数据从 HBase 转换为数据框(以便我可以启动 SQK 语句)都失败了。另一位绅士提到它不是“允许的”,因为那部分是在执行程序上运行的。但是,这是我有意识地选择在工作节点上运行这些部分。
这是健全的想法吗?如果不是,为什么不呢?
对此有何建议?还是整体思路?