1

我们有不同的数据集到不同的系统,如 Hadoop、Cassandra、MongoDB。但是我们的分析团队希望从不同的系统中获取拼接数据。例如,具有人口统计的客户信息将在一个系统中,他们的交易将在另一个系统中。分析应该能够查询以从美国用户那里获取交易量等数据。我们需要开发一个应用程序来提供与不同系统交互的简便方法。最好的方法是什么?

另一个要求:如果我们想在像 MongoDB 这样的系统中提供他们的自定义工作区,他们可以很容易地与它一起放置。按需将数据从一个系统提取到另一个系统的最佳策略是什么?

任何用于解决此类问题的指针或通用架构都会非常有帮助。

4

1 回答 1

0

我在这里看到两个问题:

  1. 如何将来自不同系统的数据整合到一个系统中?
  2. 如何在 Mongo 中创建一些数据供人们试验?

我们来了... =)

  1. 我会选择一个系统并将其作为整合的目标。换句话说,在 Hadoop、Cassandra 和 MongoDB 之间,您的团队对哪一个最有经验?你觉得哪一个最容易查询?您设置了哪一个可以很好地扩展?

    每一个都在规模、存储和可查询性方面各有利弊。

    我会选择一个,然后将所有数据泵入该系统。在最近的一份工作中,最终是 MongoDB。将数据移动到 Mongo 很容易,而且它拥有迄今为止最好的查询语言。它还有一个很棒的社区,并且设置节点比 Hadoop 等更容易。

  2. 一旦你解决了 (1),你可以修剪你的数据集并创建一个缩小的沙箱供人们运行临时查询。那将是我的方法。您不想支持整个数据集,因为它可能过于昂贵和复杂。

    如果您在关系数据库中执行此操作,我会说只需运行

    select top 1000 * from [table]

    查询每个表并使用该数据供人们使用。

于 2013-07-04T00:23:42.090 回答