首先,我必须明确表示我是新手,如果我在我的问题中没有使用正确的术语,请原谅我自己。
这是我的场景:
我需要分析大量文本,如推文、评论、邮件等。数据当前在发生时插入到 Amazon RD MySQL 实例中。
后来,我在该数据上使用 RTextTools ( http://www.rtexttools.com/ ) 在本地运行和 R 作业,以输出我想要的结果。在这一点上,重要的是要明确 R 脚本分析数据并将数据写回 MySQL 表中,该表稍后将用于显示它。
我最近遇到的问题是,每次运行该工作大约需要 1 小时,而且我每天至少需要执行 2 次......因此不再可以选择使用本地计算机。
为了寻找替代方案,我开始阅读有关 Amazon Elastic MapReduce 实例的信息,乍一看似乎是我需要的,但从这里开始我的问题和困惑。
- 我读到 EMR 的数据应该从 S3 存储桶中提取出来。如果是这种情况,那么我必须开始将我的数据存储到 S3 存储桶中的 JSON 或类似文件中,而不是存储到我的 RDS 实例中,对吗?
- 在这一点上,我读到创建 HIVE 表然后使用 RHive 读取数据以便 RTextTools 完成其工作并将结果写回我的 RDS 表是一个好主意,对吗?
- 现在是最后一个也是最重要的问题:与使用 R 运行 EC2 实例并在那里运行我的 R 脚本相比,付出所有这些麻烦是否值得,我会减少计算时间吗?
非常感谢您的时间,任何正确方向的提示将不胜感激