我正在创建一个调查引擎,该引擎将存储数百万对各种大型调查的回复。
有各种机构,每个机构将拥有 10-100 个用户。每个人都将能够管理 3000 多个问题的调查。也将有多个机构。
如果每个机构都有数十万个会话,每个会话有 3000 多个响应,我认为 hadoop 将是获取会话及其响应数据以运行各种分析(聚合等)的好选择。
会话、调查问题和响应目前都保存在 sql 数据库中。我在想我会保留它并将数据并行放置。因此,当在某个机构下进行新会话时,会将其添加到 hadoop“文件”中,以便在调用整个数据集时将其包含在内。
这个实现是否适用于 hadoop,或者我仍然在关系数据库的限制范围内?