我正在处理存储在制表符分隔.tsv
文件中的大量科学数据。要执行的典型操作是读取几个大文件,仅过滤掉某些列/行,与其他数据源连接,添加计算值并将结果写入另一个 .tsv。
纯文本因其健壮性、寿命和自记录特性而被使用。以另一种格式存储数据不是一种选择,它必须保持开放且易于处理。数据量很大(几十 TB),将副本加载到关系数据库中是负担不起的(我们将不得不购买两倍的存储空间)。
由于我主要进行选择和连接,我意识到我基本上需要一个带有基于 .tsv 的后备存储的数据库引擎。我不关心事务,因为我的数据都是一次写入多次读取。我需要就地处理数据,而不需要主要的转换步骤和数据克隆。
由于要以这种方式查询大量数据,我需要有效地处理它,利用缓存和计算机网格。
有谁知道一个系统可以提供类似数据库的功能,同时使用普通的制表符分隔文件作为后端?在我看来,这似乎是一个非常普遍的问题,几乎所有科学家都以一种或另一种方式处理。