我想确保我正确理解 EMR。我想知道 - 我所说的对 EMR / Hadoop 有意义吗?
我目前在我的应用程序上有一个推荐引擎,它检查存储在 MySQL 和 MongoDB(都在不同的 EC2 实例上)中的数据,因此可以向用户推荐内容。这工作得很好,但现在我正处于执行脚本的时间比它应该运行的时间间隔更长的地步。这显然是个问题。
我正在考虑将此脚本移至 EMR。我知道我将能够从我的映射脚本连接到 MongoDB 和 MySQL(即它不需要是S3 上的文件)。我想知道的是——如果我开始检查 MySQL / S3 上的数据——Hadoop 是否有某种方法可以确保脚本不会检查每个实例上的相同记录?我是否完全理解 Hadoop 的概念?对不起,如果这个问题真的是菜鸟。