我正在收集大量数据,这些数据很可能是以下格式:
用户 1: (a,o,x,y,z,t,h,u)
所有变量都随时间动态变化,除了 u - 它用于存储用户名。由于我在“大数据”方面的背景不是很丰富,我想了解的是,当我最终得到我的数组时,它会非常大,比如 108000 x 3500,因为我将在每个时间步上进行分析,并绘制它,什么是合适的数据库来管理它是我试图确定的。因为这是为了科学研究,所以我正在研究 CDF 和 HDF5,根据我在这里读到的NASA,我想我会想要使用 CDF。但这是管理此类数据以提高速度和效率的正确方法吗?
最终的数据集将所有用户作为列,并且行将被加上时间戳,因此我的分析程序将逐行读取以解释数据。并输入数据集。也许我应该看看 CouchDB 和 RDBMS 之类的东西,我只是不知道从哪里开始。建议将不胜感激。