0

我正在创建一个调查引擎,该引擎将存储数百万对各种大型调查的回复。

有各种机构,每个机构将拥有 10-100 个用户。每个人都将能够管理 3000 多个问题的调查。也将有多个机构。

如果每个机构都有数十万个会话,每个会话有 3000 多个响应,我认为 hadoop 将是获取会话及其响应数据以运行各种分析(聚合等)的好选择。

会话、调查问题和响应目前都保存在 sql 数据库中。我在想我会保留它并将数据并行放置。因此,当在某个机构下进行新会话时,会将其添加到 hadoop“文件”中,以便在调用整个数据集时将其包含在内。

这个实现是否适用于 hadoop,或者我仍然在关系数据库的限制范围内?

4

1 回答 1

1

我认为没有人能够明确地告诉你,是或不是。我也不认为我从问题的措辞中完全掌握了您的程序将要做什么,但是,总的来说,Hadoop Map/Reduce 擅长批量处理大量数据。它并不意味着是一个交互式(又名实时)工具。因此,如果您的系统:

1) 将运行预定的作业来分析调查结果、生成趋势、汇总数据等......那么是的,M/R 将非常适合此。

2)将允许用户通过指定他们感兴趣的内容来搜索调查,并根据他们的输入实时获取报告......那么不,M / R可能不是最好的工具。您可能想看看HBase。我还没有使用它,但Hive是一个基于查询的工具,但我不确定它可以获得多少“实时”。此外,Drill是一个新兴项目,看起来很有希望以交互方式查询大数据。

于 2013-10-14T21:46:31.823 回答