一段时间以来,我对pyspark工作的“尚未开始任何任务”挠头后,问题已被隔离为:
作品:
ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql)
sqlRdd.collect()
添加 repartition() 并挂起“尚未启动任何任务”:
ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql).repartition(2)
sqlRdd.collect()
这是与 CDH5 捆绑在一起的 1.2.0