apache-spark - 如何将 2TB 表从 RDS 实例导出到 S3 或 Hive？

Question

我正在尝试将整个表从我的 RDS 实例（MySQL 5.7）迁移到 S3（csv 文件）或 Hive。

该表总共有2TB的数据。它有一个 BLOB 列，用于存储一个 zip 文件（通常为 100KB，但可以达到 5MB）。

我用 Spark、Sqoop 和 AWS DMS 进行了一些测试，但都遇到了问题。我没有使用这些工具从 RDS 导出数据的经验，因此我非常感谢任何帮助。

这个任务最推荐哪一个？您认为哪种策略更有效？

score 0 · Accepted Answer

您可以使用 AWS 管道将 RDS 数据复制到 S3。这是一个做这件事的例子。

以 csv 格式将转储转储到 S3 后，很容易使用 spark 读取数据并将其注册为 Hive 表。

val df = spark.read.csv("s3://...")
df.saveAsTable("mytable") // saves as hive

1 回答 1