python - 使用 rdd 循环的 Pyspark 数据帧花费了太多时间

翻译自：https://stackoverflow.com/questions/58882724 2019-11-15T18:25:28.357

193 次

使用 spark sql，我从 GCP 中的 bigquery 获得了具有几百万行的 spark 数据帧。例如：

df = spark.sql("select id, concated_name from one_table group by id ...")

为了循环所有行，我使用了 rdd.collect ，但这需要很多时间。例如：

for row in df.rdd.collect()

有没有办法循环火花数据框中的所有行？在我看来，可以将 spark dataframe 中的大数据拆分为多个，并逐个处理循环。所以不会出现超时问题。或者可能有最快和最好的方式来循环所有。

0 回答 0