我在 Amazon Simple DB 域中有很多数据。我想在 Elastic Map Reduce 上启动 Hive(在 hadoop 之上),并且以某种方式从 simpledb 导入数据,或者连接到 simpledb 并在其上运行 hiveql 查询。我在导入数据时遇到问题。任何指针?
问问题
435 次
1 回答
2
作为流式 hadoop 作业的输入,您可以使用 simpleDB 的一系列 select 语句。
例如,您的输入可能包含(以不那么冗长的形式):
collectionA between dates 123 and 234
collectionA between dates 235 and 559
collectionA between dates 560 and 3000
...
然后您将实现一个执行以下转换的映射器脚本: input_select_statement => execute_select_statement => output_results
使用流式传输将非常容易,因为您可以将任何库用于您喜欢的任何语言,而不必担心实现任何复杂的 Hadoop java 东西。
希望这可以帮助。
(做这件事的hacky方法是让你在本地运行一个与上面相同的脚本,但将结果加载到s3中。我每晚为我们的很多数据库数据运行一个这样的脚本)
于 2011-06-29T03:01:14.373 回答