我正在尝试从 AWS RDS 系统读取数据并使用 SPARK 写入 Snowflake。我的 SPARK 作业与 RDS 建立 JDBC 连接,并将数据拉入数据帧,另一方面,我使用雪花连接器写入雪花的同一数据帧。
问题陈述:当我尝试写入数据时,即使是 30 GB 的数据也需要很长时间才能写入。
我试过的解决方案:
1)在写入之前重新分区数据帧。
2)缓存数据帧。
3)在写入之前计算 df 以减少写入时的扫描时间。
我正在尝试从 AWS RDS 系统读取数据并使用 SPARK 写入 Snowflake。我的 SPARK 作业与 RDS 建立 JDBC 连接,并将数据拉入数据帧,另一方面,我使用雪花连接器写入雪花的同一数据帧。
问题陈述:当我尝试写入数据时,即使是 30 GB 的数据也需要很长时间才能写入。
我试过的解决方案:
1)在写入之前重新分区数据帧。
2)缓存数据帧。
3)在写入之前计算 df 以减少写入时的扫描时间。
问这个问题可能已经有一段时间了。如果您正在准备数据框,或使用其他工具准备数据以移动到 Snowflake,则 python 连接器可以很好地集成。对查询进行故障排除的一些一般建议,包括上面推荐的评论,非常棒,您是否能够通过最近的更新解决 jdbc 连接?
要考虑的其他一些故障排除:
让我知道你的想法,我很想听听你是如何解决的。