我正在尝试将整个表从我的 RDS 实例(MySQL 5.7)迁移到 S3(csv 文件)或 Hive。
该表总共有2TB的数据。它有一个 BLOB 列,用于存储一个 zip 文件(通常为 100KB,但可以达到 5MB)。
我用 Spark、Sqoop 和 AWS DMS 进行了一些测试,但都遇到了问题。我没有使用这些工具从 RDS 导出数据的经验,因此我非常感谢任何帮助。
这个任务最推荐哪一个?您认为哪种策略更有效?
我正在尝试将整个表从我的 RDS 实例(MySQL 5.7)迁移到 S3(csv 文件)或 Hive。
该表总共有2TB的数据。它有一个 BLOB 列,用于存储一个 zip 文件(通常为 100KB,但可以达到 5MB)。
我用 Spark、Sqoop 和 AWS DMS 进行了一些测试,但都遇到了问题。我没有使用这些工具从 RDS 导出数据的经验,因此我非常感谢任何帮助。
这个任务最推荐哪一个?您认为哪种策略更有效?
您可以使用 AWS 管道将 RDS 数据复制到 S3。这是一个做这件事的例子。
以 csv 格式将转储转储到 S3 后,很容易使用 spark 读取数据并将其注册为 Hive 表。
val df = spark.read.csv("s3://...")
df.saveAsTable("mytable") // saves as hive