1

我在 Amazon Simple DB 域中有很多数据。我想在 Elastic Map Reduce 上启动 Hive(在 hadoop 之上),并且以某种方式从 simpledb 导入数据,或者连接到 simpledb 并在其上运行 hiveql 查询。我在导入数据时遇到问题。任何指针?

4

1 回答 1

2

作为流式 hadoop 作业的输入,您可以使用 simpleDB 的一系列 select 语句。

例如,您的输入可能包含(以不那么冗长的形式):

collectionA between dates 123 and 234
collectionA between dates 235 and 559
collectionA between dates 560 and 3000
...

然后您将实现一个执行以下转换的映射器脚本: input_select_statement => execute_select_statement => output_results

使用流式传输将非常容易,因为您可以将任何库用于您喜欢的任何语言,而不必担心实现任何复杂的 Hadoop java 东西。

希望这可以帮助。

(做这件事的hacky方法是让你在本地运行一个与上面相同的脚本,但将结​​果加载到s3中。我每晚为我们的很多数据库数据运行一个这样的脚本)

于 2011-06-29T03:01:14.373 回答