雅典娜看起来不错。
要在我们的规模上使用它,我们需要让它更便宜、性能更高,这意味着将我们的数据保存为 ORC 或 Parquet 格式。
将整个 Aurora 数据库迁移到 S3 并将其转换为其中一种格式的最简单方法是什么?
DMS 和 Data Pipeline 似乎可以让您在减去转换步骤的情况下到达那里......
雅典娜看起来不错。
要在我们的规模上使用它,我们需要让它更便宜、性能更高,这意味着将我们的数据保存为 ORC 或 Parquet 格式。
将整个 Aurora 数据库迁移到 S3 并将其转换为其中一种格式的最简单方法是什么?
DMS 和 Data Pipeline 似乎可以让您在减去转换步骤的情况下到达那里......
转换步骤可以用 python 完成,这里是一个示例:https ://github.com/awslabs/aws-big-data-blog/tree/master/aws-blog-spark-parquet-conversion
请参阅这篇文章:http ://docs.aws.amazon.com/athena/latest/ug/partitions.html
我会尝试 DMS 最初在 s3 中创建数据,然后使用上面的 python。