我的用例:
我想通过 SQOOP 从 EC2 将大数据导入 Hive。Hive 中导入的数据将通过应用一些算法在 Hive 中进行处理,并生成一些结果(以表格形式,仅在 Hive 中)。并且生成的结果将仅通过 SQOOP 再次导出回 Ec2。
我是 Amazon Web Services 的新手,想在 AWS EMR 的帮助下实施这个用例。我已经在本地机器上实现了它。
我已经阅读了一些与 AWS EMR 相关的链接,用于启动实例以及 EMR 是什么、它是如何工作的等等......
我对 EMR 有一些疑问,例如:
1) EMR 使用 S3 Buckets,它保存输入和输出数据 Hadoop 处理(以对象的形式)。---> 我没有得到如何在 S3 上以对象的形式存储数据(我的数据将是文件)
2)如前所述,我已经在 Java 中为我的用例实现了一项任务。因此,如果我创建程序的 JAR 并使用自定义 JAR 创建作业流。是否有可能像这样实现,还是需要为此做一些额外的事情?
3) 正如我在用例中所说,我想在 SQOOP 的帮助下将结果导出回 Ec2。EMR 是否支持 SQOOP?
--edited part 4) 此外,我将每天/每周从 SQL Server 导入我的数据,因为我在 SQL Server 中的数据每天/每周都会更新。如果我想在 S3 上导入该数据并将其提供给 Hive,那么我该怎么做?(因为 Hive 将其数据存储在 /user/hive/warehouse 目录下的 HDFS 上)。如何链接到 HDFS 中的 S3 和 /user/hive/warehouse 目录。
请尽快回复我您的答案。我想尽早做到这一点。
非常感谢。