要将大矩阵存储在磁盘上,我使用 numpy.memmap。
这是一个测试大矩阵乘法的示例代码:
import numpy as np
import time
rows= 10000 # it can be large for example 1kk
cols= 1000
#create some data in memory
data = np.arange(rows*cols, dtype='float32')
data.resize((rows,cols))
#create file on disk
fp0 = np.memmap('C:/data_0', dtype='float32', mode='w+', shape=(rows,cols))
fp1 = np.memmap('C:/data_1', dtype='float32', mode='w+', shape=(rows,cols))
fp0[:]=data[:]
fp1[:]=data[:]
#matrix transpose test
tr = np.memmap('C:/data_tr', dtype='float32', mode='w+', shape=(cols,rows))
tr= np.transpose(fp1) #memory consumption?
print fp1.shape
print tr.shape
res = np.memmap('C:/data_res', dtype='float32', mode='w+', shape=(rows,rows))
t0 = time.time()
# redifinition ? res= np.dot(fp0,tr) #takes 342 seconds on my machine, if I multiplicate matrices in RAM it takes 345 seconds (I thinks it's a strange result)
res[:]= np.dot(fp0,tr) # assignment ?
print res.shape
print (time.time() - t0)
所以我的问题是:
- 如何将使用此过程的应用程序的内存消耗限制为某个值,例如 100Mb(或 1Gb 或其他)。另外我不明白如何估计过程的内存消耗(我认为内存仅在“数据" 创建了变量,但是当我们使用 memmap 文件时使用了多少内存?)
- 也许对于存储在磁盘上的大矩阵的乘法有一些最佳解决方案?例如,数据可能没有最佳地存储在磁盘上或从磁盘读取,没有正确地chached,并且点积也只使用一个核心。也许我应该使用像 PyTables 之类的东西?
我还对解决内存使用受限的线性方程组(SVD 等)的算法感兴趣。也许这种算法称为核外或迭代,我认为有一些类比,如硬盘驱动器<->ram、gpu ram<->cpu ram、cpu ram<->cpu 缓存。
另外在这里我找到了一些关于 PyTables 中矩阵乘法的信息。
我也在 R 中找到了它,但我需要它用于 Python 或 Matlab。