apache-spark - ibis ImpalaTable 到 pyspark 数据框

Question

就我而言，我需要将 impala 数据加载到 spark(pyspark)。因为我想使用FPGrowthspark mllib。

数据在 kudu 中，它是由 impala 制作的。在spark上直接连接kudu被相关部门拒绝。而且我也无法连接cloudera制作的impala jdbc。
所以我最后的选择是

但我找不到办法。
我想错了吗？

score 0 · Accepted Answer

以前，这种方式对我不起作用。
我可以获得表的架构，但由于超时而无法查询。

我终于发现了一个问题。我的问题是由防火墙引起的。
我只打开了主节点的端口，但我需要打开数据节点的端口。
现在一切都很好。

1 回答 1