我正在从事一个旨在研究人们行为的学术项目。
该项目将分为三个部分:
- 从一些远程源读取数据并用它构建本地数据池的程序。
- 验证此数据池并保持其一致性的程序
- 允许人们读取/操作数据的 Web 界面。
数据由一个人列表组成,所有人都有一个 ID #,并具有几个特征:身高、体重、年龄......
我需要轻松地从这些数据中分组(例如:所有具有给定年龄或高度范围的数据)并且数据有几个 TB 大(但可以减少为 2-3 gb 的较小子集)。
我对项目背后的理论知识有很强的背景,但我不是计算机科学家。我知道java、C和Matlab,现在我正在学习python。
我想使用 python,因为它看起来很简单,并且大大减少了 Java 的冗长。问题是我想知道如何处理数据池。
我不是数据库专家,但我想我在这里需要一个。你认为我应该使用什么工具?
请记住,目标是在数据集上实现非常高级的数学函数,因此我们希望降低源代码的复杂性。速度不是问题。