apache-spark - Spark分块读取数据库行？

Question

我正在使用spark.read.jdbc非常大的方法查询数据库并收到以下错误：

com.mysql.cj.jdbc.exceptions.PacketTooBigException: Packet for query is too large (15,913,800 > 4,194,304)

这表明检索到的数据太大。
我没有更改数据库设置的选项，我需要能够检索所有数据，所以我想以块的形式读取数据并将结果作为数据框。我怎样才能做到这一点？

例如，在 python 中，我可以使用 pandas 查询数据库并以块文档的形式读取它

score 1 · Accepted Answer

1

如果您查看文档，您可以找到fetchsize可以传递给spark.read.jdbc...的选项

于 2021-02-22T18:03:22.890 回答

1 回答 1