0

I'm planning a Data Migration from AWS MySQL instances to GCP BigQuery. I don't want to migrate every MySQL Database because finally I want to create a Data Warehouse using BigQuery.

Would exporting AWS MySQL DB to S3 buckets as csv/json/avro, then transfer to GCP buckets be a good option? What would be the best practices for this Data pipeline?

4

2 回答 2

2

如果这是 MySQL 到 MySQL 的迁移;还有其他可能的选择。但是在这种情况下,您提到的选项是完美的。另外,请记住,您的 MySQL 数据库将不断更新。因此,您的目标数据库可能会丢失一些记录。因为它不是实时数据库传输。

于 2019-03-10T16:41:20.583 回答
0

您的导出到 S3 文件的建议应该可以正常工作,并且要导出文件,您可以利用AWS Database Migration Service

使用该服务,您可以一次性导出到 S3,或使用变更数据捕获进行增量导出。不幸的是,由于 BigQuery 并不是真正为处理其表的更改而设计的,因此实施 CDC 可能有点麻烦(尽管完全可行)。您需要考虑跨提供商传输数据的成本。

另一种对您来说更容易的选择是使用相同的 AWS Database Migration 服务将数据直接移动到 Amazon Redshift

在这种情况下,您将自动获得变更数据捕获,因此您无需担心任何事情。RedShift 是构建数据仓库的绝佳工具。

如果您出于任何原因不想使用 RedShift,并且更喜欢完全无服务器的解决方案,那么您可以轻松地使用AWS Glue Catalog从您的数据库中读取数据并导出到 AWS Athena。

基于 AWS 的解决方案最酷的一点是一切都紧密集成,您可以使用相同的帐户/用户进行计费、IAM、监控……而且由于您在单个提供商内移动数据,因此网络无需额外费用,没有延迟,并且可能更少的安全问题。

于 2019-03-10T18:49:48.040 回答