0

我正在尝试将数据从 pyspark 写入 postgresql DB。我使用了批处理大小 1000,pyspark 数据框中的总数据为 10000。但是在 postgresql 中进行的插入不是分批的。它正在一个一个地插入数据。以下代码用于写入数据库

        df.write.
            option('batchsize',1000).jdbc(
            url=database_connection.url,
            table=data_table,
            mode="append",
            properties=database_connection.properties
        )

请提出一些解决方案。此选项适用于 POSTGRESQL Db 吗?

4

1 回答 1

0

根据您使用的资源(核心),它将数据加载与批量加载并行。批处理在从 HDFS 表中获取时在内部进行处理,但在将其写入表时不进行处理。此链接可能会帮助您理解这一点。

于 2019-11-11T11:07:37.127 回答