python - 如何有效地对 Pytables 中的数据进行插值

Question

我在 pytables 中有很长的数组和时间值对表。我需要能够对此数据执行线性插值和零阶保持插值。

目前，我正在使用 pytables 的按列切片表示法将列转换为 numpy 数组，然后将 numpy 数组提供给 scipy.interpolate.interp1d 以创建插值函数。

有一个更好的方法吗？

我问的原因是我的理解是将列转换为 numpy 数组基本上将它们复制到内存中。这意味着当我开始全速运行我的代码时，我将遇到麻烦，因为我将使用大到足以淹没我的桌面的数据集。如果我在这一点上弄错了，请纠正我。

此外，由于我将使用大量数据，我怀疑编写一个迭代 pytables 数组/表以便自己进行插值的函数会非常慢，因为我需要多次调用插值函数，很多次（大约与我试图插入的数据中的记录一样多）。

score 1 · Accepted Answer

您的问题很难回答，因为在内存和计算时间之间总是存在权衡，而您本质上是在要求不必牺牲其中任何一个，这是不可能的。 scipy.interpolate.interp1d()要求数组在内存中并且编写核外插值器要求您使用调用它的次数线性查询磁盘。

也就是说，您可以做几件事，但没有一件是完美的。

您可以尝试的第一件事是对数据进行下采样。这将通过降低样本的因素来减少您需要在内存中拥有的数据。缺点是您的插值要粗得多。幸运的是，这很容易做到。只需为您访问的列提供步长。对于 4 的下采样因子，您将执行以下操作：

with tb.open_file('myfile.h5', 'r') as f:
    x = f.root.mytable.cols.x[::4]
    y = f.root.mytable.cols.y[::4]

f = scipy.interpolate.interp1d(x, y)
ynew = f(xnew)

如果您愿意，也可以根据可用内存调整此步长。

或者，如果您为其插值的数据集 - xnew - 仅存在于原始域的一个子集上，则您可以只读取位于新邻域中的原始表的一部分。给定 10% 的软糖系数，您将执行以下操作：

query = "{0} <= x & x <= {1}".format(xnew.min()*0.9, xnew.max()*1.1)

with tb.open_file('myfile.h5', 'r') as f:
    data = f.root.mytable.read_where(query)

f = scipy.interpolate.interp1d(data['x'], data['y'])
ynew = f(xnew)

扩展这个想法，如果我们有xnew排序（单调递增）但确实扩展到整个原始域的情况，那么您可以以分块方式从磁盘上的表中读取。假设我们想要 10 个块：

newlen = len(xnew)
chunks = 10
chunklen = newlen/ chunks
ynew = np.empty(newlen, dtype=float)
for i in range(chunks):
    xnew_chunk = xnew[i*chunklen:(i+1)*chunklen]
    query = "{0} <= x & x <= {1}".format(xnew_chunklen.min()*0.9, 
                                         xnew_chunklen.max()*1.1)

    with tb.open_file('myfile.h5', 'r') as f:
        data = f.root.mytable.read_where(query)

    f = scipy.interpolate.interp1d(data['x'], data['y'])
    ynew[i*chunklen:(i+1)*chunklen] = f(xnew_chunk)

在内存和 I/O 速度之间取得平衡始终是一个挑战。根据数据的规律性，您可能可以采取一些措施来加快这些策略的速度。不过，这应该足以让您入门。

python - 如何有效地对 Pytables 中的数据进行插值

1 回答 1

Related

Reference