我正在使用带有 pyspark 的 Snappydata 来运行我的 sql 查询并将输出 DF 转换为字典以将其批量插入到 mongo 中。我已经经历了许多类似的问题来测试 spark DF 到 Dictionary 的转换。
目前我正在使用map(lambda row: row.asDict(), x.collect())
这种方法将我的批量DF 转换为字典。10K 条记录需要 2-3 秒。
我在下面说明了我是如何实现我的想法的:
x = snappySession.sql("select * from test")
df = map(lambda row: row.asDict(), x.collect())
db.collection.insert_many(df)
有没有更快的方法?