6

一段时间以来,我对pyspark工作的“尚未开始任何任务”挠头后,问题已被隔离为:

作品:

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql)
sqlRdd.collect()

添加 repartition() 并挂起“尚未启动任何任务”:

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql).repartition(2)
sqlRdd.collect()

这是与 CDH5 捆绑在一起的 1.2.0

4

0 回答 0