0

雅典娜看起来不错。

要在我们的规模上使用它,我们需要让它更便宜、性能更高,这意味着将我们的数据保存为 ORC 或 Parquet 格式。

将整个 Aurora 数据库迁移到 S3 并将其转换为其中一种格式的最简单方法是什么?

DMS 和 Data Pipeline 似乎可以让您在减去转换步骤的情况下到达那里......

4

1 回答 1

0

转换步骤可以用 python 完成,这里是一个示例:https ://github.com/awslabs/aws-big-data-blog/tree/master/aws-blog-spark-parquet-conversion

请参阅这篇文章:http ://docs.aws.amazon.com/athena/latest/ug/partitions.html

我会尝试 DMS 最初在 s3 中创建数据,然后使用上面的 python。

于 2017-05-16T13:30:09.587 回答