python - 临时 Numpy 数组的数据库或表解决方案

Question

我正在创建一个 Python 桌面应用程序，它允许用户选择不同的分布形式来对农业产量数据进行建模。我有时间序列农业数据 - 接近一百万行 - 保存在 SQLite 数据库中（尽管如果有人知道更好的选择，这并不是一成不变的）。一旦用户选择了一些数据，比如伊利诺伊州 1990-2010 年的玉米产量，我希望他们从下拉列表中选择一种分布形式。接下来，我的函数将分布拟合到数据中，并从 Numpy 数组中的拟合分布形式中输出 10,000 个点。我希望这些数据在程序执行期间是临时的。

为了提高效率，我只想对指定的区域和分布进行一次拟合和随后的数字绘制。我一直在研究 Python 中的临时文件，但我不确定这是保存许多不同 Numpy 数组的最佳方法。PyTables 看起来也是一种有趣的方法，并且似乎与 Numpy 兼容，但我不确定它是否适合处理临时数据。这些天似乎没有像 MongoDB 这样的 SQL 解决方案非常流行，从简历构建的角度来看，这也让我感兴趣。

编辑：阅读下面的评论并对其进行研究后，我将使用 PyTables，但我正在尝试找到解决此问题的最佳方法。是否可以创建一个像下面这样的表，而不是 Float32Col 我可以使用 scikits 时间序列类中的 createTimeSeriesTable() 或者我是否需要为日期创建一个日期时间列和一个用于掩码的布尔列，除了下面的 Float32Col 来保存数据。还是有更好的方法来解决这个问题？

class Yield(IsDescription):
    geography_id = UInt16Col()
    data = Float32Col(shape=(50, 1)) # for 50 years of data

任何有关此事的帮助将不胜感激。

score 1 · Accepted Answer

临时数据的用例是什么？您是否只想一次阅读所有内容（并且不想只阅读一个子集）？

如果是这样，只需将数组保存到一个临时文件（例如，使用numpy.save，或等效pickle地使用二进制协议）。在这种情况下，不需要更高级的解决方案。

在旁注中，我强烈推荐使用 PyTables 而不是 SQLite 来存储您的原始时间序列数据。

根据您正在做的事情，您将不需要关系数据库的“关系”部分（例如连接）。如果您不需要连接或关联表，只需要快速简单的查询，并且希望内存中的数据为 numpy 数组，那么 PyTables 是一个很好的选择。PyTables 使用 HDF 存储数据，它在磁盘上比 SQLite 数据库更紧凑。PyTables 将大块数据作为 numpy 数组加载到内存中的速度也相当快。

python - 临时 Numpy 数组的数据库或表解决方案

1 回答 1

Related

Reference