1

我正在尝试从 AWS RDS 系统读取数据并使用 SPARK 写入 Snowflake。我的 SPARK 作业与 RDS 建立 JDBC 连接,并将数据拉入数据帧,另一方面,我使用雪花连接器写入雪花的同一数据帧。

问题陈述:当我尝试写入数据时,即使是 30 GB 的数据也需要很长时间才能写入。

我试过的解决方案
1)在写入之前重新分区数据帧。
2)缓存数据帧。
3)在写入之前计算 df 以减少写入时的扫描时间。

4

1 回答 1

0

问这个问题可能已经有一段时间了。如果您正在准备数据框,或使用其他工具准备数据以移动到 Snowflake,则 python 连接器可以很好地集成。对查询进行故障排除的一些一般建议,包括上面推荐的评论,非常棒,您是否能够通过最近的更新解决 jdbc 连接?

要考虑的其他一些故障排除:

让我知道你的想法,我很想听听你是如何解决的。

于 2019-10-09T23:25:35.260 回答