postgresql - pyspark dataframe.write() 中的 batchsize 选项不起作用

Question

我正在尝试将数据从 pyspark 写入 postgresql DB。我使用了批处理大小 1000，pyspark 数据框中的总数据为 10000。但是在 postgresql 中进行的插入不是分批的。它正在一个一个地插入数据。以下代码用于写入数据库

        df.write.
            option('batchsize',1000).jdbc(
            url=database_connection.url,
            table=data_table,
            mode="append",
            properties=database_connection.properties
        )

请提出一些解决方案。此选项适用于 POSTGRESQL Db 吗？

score 0 · Accepted Answer

根据您使用的资源（核心），它将数据加载与批量加载并行。批处理在从 HDFS 表中获取时在内部进行处理，但在将其写入表时不进行处理。此链接可能会帮助您理解这一点。

postgresql - pyspark dataframe.write() 中的 batchsize 选项不起作用

1 回答 1

Related

Reference