0

就我而言,我需要将 impala 数据加载到 spark(pyspark)。因为我想使用FPGrowthspark mllib。

数据在 kudu 中,它是由 impala 制作的。在spark上直接连接kudu被相关部门拒绝。而且我也无法连接cloudera制作的impala jdbc。
所以我最后的选择是

  1. 使用 ibis ( https://github.com/ibis-project/ibis )加载数据
  2. 转换ImpalaTable为火花Dataframe

但我找不到办法。
我想错了吗?

4

1 回答 1

0

以前,这种方式对我不起作用。
我可以获得表的架构,但由于超时而无法查询。

我终于发现了一个问题。我的问题是由防火墙引起的。
我只打开了主节点的端口,但我需要打开数据节点的端口。
现在一切都很好。

于 2021-10-28T01:02:11.600 回答