amazon-ec2 - 如何在 Amazon Elastic Mapreduce 之上使用 Hive 来处理 Amazon Simple DB 中的数据？

Question

我在 Amazon Simple DB 域中有很多数据。我想在 Elastic Map Reduce 上启动 Hive（在 hadoop 之上），并且以某种方式从 simpledb 导入数据，或者连接到 simpledb 并在其上运行 hiveql 查询。我在导入数据时遇到问题。任何指针？

score 2 · Accepted Answer

作为流式 hadoop 作业的输入，您可以使用 simpleDB 的一系列 select 语句。

例如，您的输入可能包含（以不那么冗长的形式）：

collectionA between dates 123 and 234
collectionA between dates 235 and 559
collectionA between dates 560 and 3000
...

然后您将实现一个执行以下转换的映射器脚本： input_select_statement => execute_select_statement => output_results

使用流式传输将非常容易，因为您可以将任何库用于您喜欢的任何语言，而不必担心实现任何复杂的 Hadoop java 东西。

希望这可以帮助。

（做这件事的hacky方法是让你在本地运行一个与上面相同的脚本，但将结果加载到s3中。我每晚为我们的很多数据库数据运行一个这样的脚本）

1 回答 1