您的问题很难回答,因为在内存和计算时间之间总是存在权衡,而您本质上是在要求不必牺牲其中任何一个,这是不可能的。 scipy.interpolate.interp1d()
要求数组在内存中并且编写核外插值器要求您使用调用它的次数线性查询磁盘。
也就是说,您可以做几件事,但没有一件是完美的。
您可以尝试的第一件事是对数据进行下采样。这将通过降低样本的因素来减少您需要在内存中拥有的数据。缺点是您的插值要粗得多。幸运的是,这很容易做到。只需为您访问的列提供步长。对于 4 的下采样因子,您将执行以下操作:
with tb.open_file('myfile.h5', 'r') as f:
x = f.root.mytable.cols.x[::4]
y = f.root.mytable.cols.y[::4]
f = scipy.interpolate.interp1d(x, y)
ynew = f(xnew)
如果您愿意,也可以根据可用内存调整此步长。
或者,如果您为其插值的数据集 - xnew - 仅存在于原始域的一个子集上,则您可以只读取位于新邻域中的原始表的一部分。给定 10% 的软糖系数,您将执行以下操作:
query = "{0} <= x & x <= {1}".format(xnew.min()*0.9, xnew.max()*1.1)
with tb.open_file('myfile.h5', 'r') as f:
data = f.root.mytable.read_where(query)
f = scipy.interpolate.interp1d(data['x'], data['y'])
ynew = f(xnew)
扩展这个想法,如果我们有xnew
排序(单调递增)但确实扩展到整个原始域的情况,那么您可以以分块方式从磁盘上的表中读取。假设我们想要 10 个块:
newlen = len(xnew)
chunks = 10
chunklen = newlen/ chunks
ynew = np.empty(newlen, dtype=float)
for i in range(chunks):
xnew_chunk = xnew[i*chunklen:(i+1)*chunklen]
query = "{0} <= x & x <= {1}".format(xnew_chunklen.min()*0.9,
xnew_chunklen.max()*1.1)
with tb.open_file('myfile.h5', 'r') as f:
data = f.root.mytable.read_where(query)
f = scipy.interpolate.interp1d(data['x'], data['y'])
ynew[i*chunklen:(i+1)*chunklen] = f(xnew_chunk)
在内存和 I/O 速度之间取得平衡始终是一个挑战。根据数据的规律性,您可能可以采取一些措施来加快这些策略的速度。不过,这应该足以让您入门。