1

我在 on-primise hadoop 集群(在我的本地网络中)中有一定数量的数据,我在 Amazon 云 S3 hadoop 集群中有一定数量的数据。在这两个地方,我的数据都驻留在配置单元表中。

我想从我的本地 hadoop 集群中触发一个 hive 查询,这个查询应该加入来自我的本地集群 hive 表的数据和来自 amazon s3 hadoop 集群的 hive 表数据。它应该连接来自两个地方的数据并给出结果

到我的本地集群环境,因为我正在从本地配置单元外壳发出查询。

这个问题可以通过 Amazon Data Pipeline 处理吗?如果是,请指导我。

谢谢,-Suyodha

4

1 回答 1

1

没有自动解决方案。

首先,您必须从本地集群中导出数据并将其传输到 AWS 上的 S3。然后您可以将此数据加载到 EMR 集群中。

您可以使用 Data Pipeline 对传输到 S3 的数据集执行 Hive Activity。

Data Pipeline 中的开箱即用活动有助于 S3 复制、EMR 集群设置和 Hive 活动执行。他们不会帮助您将数据从本地传输到 AWS。如果你必须自动化,你将需要编写一些脚本等代码。

于 2014-09-14T21:17:29.543 回答