amazon-data-pipeline - hive 分布式查询以连接来自 on-primise hadoop 集群和 amazon s3 hadoop 集群的数据

Question

我在 on-primise hadoop 集群（在我的本地网络中）中有一定数量的数据，我在 Amazon 云 S3 hadoop 集群中有一定数量的数据。在这两个地方，我的数据都驻留在配置单元表中。

我想从我的本地 hadoop 集群中触发一个 hive 查询，这个查询应该加入来自我的本地集群 hive 表的数据和来自 amazon s3 hadoop 集群的 hive 表数据。它应该连接来自两个地方的数据并给出结果

到我的本地集群环境，因为我正在从本地配置单元外壳发出查询。

这个问题可以通过 Amazon Data Pipeline 处理吗？如果是，请指导我。

谢谢，-Suyodha

score 1 · Accepted Answer

没有自动解决方案。

首先，您必须从本地集群中导出数据并将其传输到 AWS 上的 S3。然后您可以将此数据加载到 EMR 集群中。

您可以使用 Data Pipeline 对传输到 S3 的数据集执行 Hive Activity。

Data Pipeline 中的开箱即用活动有助于 S3 复制、EMR 集群设置和 Hive 活动执行。他们不会帮助您将数据从本地传输到 AWS。如果你必须自动化，你将需要编写一些脚本等代码。

1 回答 1