我将运行大量模拟,产生大量需要存储和稍后再次访问的数据。我的模拟程序的输出数据被写入文本文件(每个模拟一个)。我计划编写一个 Python 程序来读取这些文本文件,然后将数据以一种更便于以后分析的格式存储。经过相当多的搜索,我认为我正在遭受信息过载的困扰,所以我将这个问题提交给 Stack Overflow 寻求一些建议。以下是详细信息:
我的数据基本上将采用多维数组的形式,其中每个条目看起来像这样:
data[ stringArg1, stringArg2, stringArg3, stringArg4, intArg1 ] = [ floatResult01, floatResult02, ..., floatResult12 ]
每个参数大致具有以下数量的潜在值:
字符串Arg1:50
字符串Arg2:20
字符串Arg3:6
字符串Arg4:24
intArg1:10,000
但是请注意,数据集将是稀疏的。例如,对于 stringArg1 的给定值,将仅填充大约 16 个 stringArg2 值。此外,对于 (stringArg1, stringArg2) 的给定组合,将填充大约 5000 个 intArg1 值。第三和第四个字符串参数是总是完全充满。
所以,有了这些数字,我的数组将有大约 50*16*6*24*5000 = 576,000,000 个结果列表。
我正在寻找存储此数组的最佳方式,以便我可以保存它并稍后重新打开它以添加更多数据、更新现有数据或查询现有数据以进行分析。到目前为止,我已经研究了三种不同的方法:
关系数据库
PyTables
使用元组作为字典键的 Python 字典(使用 pickle 保存和重新加载)
我在所有三种方法中都遇到了一个问题,我总是将 (stringArg1, stringArg2, stringArg3, stringArg4, intArg1) 的每个元组组合存储为表中的字段或 Python 字典中的键。从我(可能很天真)的角度来看,这似乎没有必要。如果这些都是整数参数,那么它们只会形成数组中每个数据条目的地址,并且不需要将所有潜在的地址组合存储在单独的字段中。例如,如果我有一个 2x2 数组 = [[100, 200] , [300, 400]],您将通过请求地址数组 [0][1] 处的值来检索值。您不需要将所有可能的地址元组 (0,0) (0,1) (1,0) (1,1) 存储在其他地方。所以我希望找到解决这个问题的方法。
我希望能够在 PyTables 中定义一个表格,其中第一个表格中的单元格包含其他表格。例如,顶级表将有两列。第一列中的条目将是 stringArg1 的可能值。第二列中的每个条目都是一个表格。然后这些子表将有两列,第一列是 stringArg2 的所有可能值,第二列是另一列子子表......
这种解决方案可以直接浏览和查询(特别是如果我可以使用 ViTables 浏览数据)。问题是 PyTables 似乎不支持让一个表格的单元格包含其他表格。所以我似乎在那里遇到了死胡同。
我一直在阅读数据仓库和星型模式方法,但您的事实表似乎仍然需要包含每个可能的参数组合的元组。
好的,这就是我所在的位置。任何和所有的建议将不胜感激。在这一点上,我一直在四处寻找,以至于我的大脑受伤了。我想是时候问问专家了。