hadoop - 不同系统之间的大数据传输

Question

我们有不同的数据集到不同的系统，如 Hadoop、Cassandra、MongoDB。但是我们的分析团队希望从不同的系统中获取拼接数据。例如，具有人口统计的客户信息将在一个系统中，他们的交易将在另一个系统中。分析应该能够查询以从美国用户那里获取交易量等数据。我们需要开发一个应用程序来提供与不同系统交互的简便方法。最好的方法是什么？

另一个要求：如果我们想在像 MongoDB 这样的系统中提供他们的自定义工作区，他们可以很容易地与它一起放置。按需将数据从一个系统提取到另一个系统的最佳策略是什么？

任何用于解决此类问题的指针或通用架构都会非常有帮助。

score 0 · Accepted Answer

我在这里看到两个问题：

如何将来自不同系统的数据整合到一个系统中？
如何在 Mongo 中创建一些数据供人们试验？

我们来了... =）

我会选择一个系统并将其作为整合的目标。换句话说，在 Hadoop、Cassandra 和 MongoDB 之间，您的团队对哪一个最有经验？你觉得哪一个最容易查询？您设置了哪一个可以很好地扩展？

每一个都在规模、存储和可查询性方面各有利弊。

我会选择一个，然后将所有数据泵入该系统。在最近的一份工作中，最终是 MongoDB。将数据移动到 Mongo 很容易，而且它拥有迄今为止最好的查询语言。它还有一个很棒的社区，并且设置节点比 Hadoop 等更容易。
一旦你解决了 (1)，你可以修剪你的数据集并创建一个缩小的沙箱供人们运行临时查询。那将是我的方法。您不想支持整个数据集，因为它可能过于昂贵和复杂。

如果您在关系数据库中执行此操作，我会说只需运行

select top 1000 * from [table]

查询每个表并使用该数据供人们使用。

hadoop - 不同系统之间的大数据传输

1 回答 1

Related

Reference