就我而言,我需要将 impala 数据加载到 spark(pyspark)。因为我想使用FPGrowth
spark mllib。
数据在 kudu 中,它是由 impala 制作的。在spark上直接连接kudu被相关部门拒绝。而且我也无法连接cloudera制作的impala jdbc。
所以我最后的选择是
- 使用 ibis ( https://github.com/ibis-project/ibis )加载数据
- 转换
ImpalaTable
为火花Dataframe
但我找不到办法。
我想错了吗?