我们有不同的数据集到不同的系统,如 Hadoop、Cassandra、MongoDB。但是我们的分析团队希望从不同的系统中获取拼接数据。例如,具有人口统计的客户信息将在一个系统中,他们的交易将在另一个系统中。分析应该能够查询以从美国用户那里获取交易量等数据。我们需要开发一个应用程序来提供与不同系统交互的简便方法。最好的方法是什么?
另一个要求:如果我们想在像 MongoDB 这样的系统中提供他们的自定义工作区,他们可以很容易地与它一起放置。按需将数据从一个系统提取到另一个系统的最佳策略是什么?
任何用于解决此类问题的指针或通用架构都会非常有帮助。