我有一个托管在云(MongoLab 或 MongoHQ)中的大型 Mongo 数据库(100GB)。我想对数据运行一些 Map/Reduce 任务来计算一些昂贵的统计数据,并且想知道完成这项工作的最佳工作流程是什么。理想情况下,我想使用 Amazon 的 Map/Reduce 服务来做到这一点,而不是维护我自己的 Hadoop 集群。
将数据从数据库复制到 S3 是否有意义。然后在上面运行 Amazon Map/Reduce?或者有更好的方法来完成这项工作。
此外,如果再往下走,我可能想像每天一样频繁地运行查询,所以 S3 上的数据需要反映 Mongo 中的内容,这会使事情复杂化吗?
任何建议/战争故事都会非常有帮助。