我在 EC2 实例上建立了一个网站,让用户可以查看来自 4 个社交网络的信息。
一旦用户加入,网站应该每晚更新他们的信息,以便在第二天显示最新的相关信息。
最初,我们有一个 cron-job,它遍历每个用户并对 API 进行必要的调用,然后将数据存储在数据库(amazon rds 实例)上。
此操作每人需要 2 到 30 秒,这意味着一个接一个地进行更新需要几天时间。
我正在查看 MapReduce 并想知道它是否适合我尝试做的事情,但目前我无法确定。
我是否可以向 MapReduce 提供一个 .sql 文件,其中包含我要更新的所有记录 + 一个告诉 MapReduce 如何处理每条记录并让它同时处理它们的脚本?
如果没有,最好的方法是什么?
提前感谢您的帮助。