我在 on-primise hadoop 集群(在我的本地网络中)中有一定数量的数据,我在 Amazon 云 S3 hadoop 集群中有一定数量的数据。在这两个地方,我的数据都驻留在配置单元表中。
我想从我的本地 hadoop 集群中触发一个 hive 查询,这个查询应该加入来自我的本地集群 hive 表的数据和来自 amazon s3 hadoop 集群的 hive 表数据。它应该连接来自两个地方的数据并给出结果
到我的本地集群环境,因为我正在从本地配置单元外壳发出查询。
这个问题可以通过 Amazon Data Pipeline 处理吗?如果是,请指导我。
谢谢,-Suyodha