使用 spark sql,我从 GCP 中的 bigquery 获得了具有几百万行的 spark 数据帧。例如:
df = spark.sql("select id, concated_name from one_table group by id ...")
为了循环所有行,我使用了 rdd.collect ,但这需要很多时间。例如:
for row in df.rdd.collect()
有没有办法循环火花数据框中的所有行?在我看来,可以将 spark dataframe 中的大数据拆分为多个,并逐个处理循环。所以不会出现超时问题。或者可能有最快和最好的方式来循环所有。