1

来自亚马逊的 EMR 常见问题解答:

问:我可以从 Internet 或 Amazon S3 以外的其他地方加载我的数据吗?

是的。您的 Hadoop 应用程序可以从 Internet 上的任何位置或从其他 AWS 服务加载数据。请注意,如果您从 Internet 加载数据,将收取 EC2 带宽费用。Amazon Elastic MapReduce 还提供对 DynamoDB 中数据的基于 Hive 的访问。

从外部(非 S3)源加载数据的规范是什么?这个选项似乎缺乏资源,并且似乎没有以任何形式记录。

4

3 回答 3

2

如果您想以“hadoop 方式”执行此操作,您应该在您的数据源上实现 DFS,或者将对您的源 URL 的引用放入某个文件中,该文件将作为 MR 作业的输入。
同时,hadoop 是关于将代码移动到数据中的。从这个角度来看,即使 EMR over S3 也不理想 - EC2 和 S3 是不同的集群。因此,如果数据源在物理上位于数据中心之外,则很难想象有效的 MR 处理。

于 2012-06-06T21:24:17.060 回答
0

我知道用于 java 的 Cassandra 包有一个名为org.apache.cassandra.hadoop的源包,其中有两个类在您运行 AWS Elastic MapReduce 时从 Cassandra 获取信息。

基本课程:ColumnFamilyInputFormat.javaConfigHelper.java

转到此链接以查看我正在谈论的示例。

于 2012-12-12T12:35:20.950 回答
0

基本上亚马逊所说的是,您可以通过您的代码以编程方式访问来自互联网或任何其他来源的任何内容。例如,您可以通过任何基于 HTTP 的客户端 API 访问 Couch 数据库实例。

于 2012-06-19T20:48:03.110 回答