0

我正在尝试将整个表从我的 RDS 实例(MySQL 5.7)迁移到 S3(csv 文件)或 Hive。

该表总共有2TB的数据。它有一个 BLOB 列,用于存储一个 zip 文件(通常为 100KB,但可以达到 5MB)。

我用 Spark、Sqoop 和 AWS DMS 进行了一些测试,但都遇到了问题。我没有使用这些工具从 RDS 导出数据的经验,因此我非常感谢任何帮助。

这个任务最推荐哪一个?您认为哪种策略更有效?

4

1 回答 1

0

您可以使用 AWS 管道将 RDS 数据复制到 S3。这是一个做这件事的例子。

以 csv 格式将转储转储到 S3 后,很容易使用 spark 读取数据并将其注册为 Hive 表。

val df = spark.read.csv("s3://...")
df.saveAsTable("mytable") // saves as hive
于 2017-10-02T14:01:21.183 回答