hadoop - Hadoop会帮助我的情况吗？

Question

我正在创建一个调查引擎，该引擎将存储数百万对各种大型调查的回复。

有各种机构，每个机构将拥有 10-100 个用户。每个人都将能够管理 3000 多个问题的调查。也将有多个机构。

如果每个机构都有数十万个会话，每个会话有 3000 多个响应，我认为 hadoop 将是获取会话及其响应数据以运行各种分析（聚合等）的好选择。

会话、调查问题和响应目前都保存在 sql 数据库中。我在想我会保留它并将数据并行放置。因此，当在某个机构下进行新会话时，会将其添加到 hadoop“文件”中，以便在调用整个数据集时将其包含在内。

这个实现是否适用于 hadoop，或者我仍然在关系数据库的限制范围内？

score 1 · Accepted Answer

我认为没有人能够明确地告诉你，是或不是。我也不认为我从问题的措辞中完全掌握了您的程序将要做什么，但是，总的来说，Hadoop Map/Reduce 擅长批量处理大量数据。它并不意味着是一个交互式（又名实时）工具。因此，如果您的系统：

1) 将运行预定的作业来分析调查结果、生成趋势、汇总数据等......那么是的，M/R 将非常适合此。

2）将允许用户通过指定他们感兴趣的内容来搜索调查，并根据他们的输入实时获取报告......那么不，M / R可能不是最好的工具。您可能想看看HBase。我还没有使用它，但Hive是一个基于查询的工具，但我不确定它可以获得多少“实时”。此外，Drill是一个新兴项目，看起来很有希望以交互方式查询大数据。

hadoop - Hadoop会帮助我的情况吗？

1 回答 1

Related

Reference