我使用形状为(323549、4119259)的稀疏矩阵格式从文本数据中保存了我的特征。我正在尝试使用 sklearn 库对它们执行奇异值分解,但是,我不断收到内存错误,这表明我的计算机功能不足以执行特征缩减。有没有更有效的方法来做到这一点?这是我使用的代码。
import numpy as np
from sklearn.decomposition import TruncatedSVD
import pickle
with open('vectors.pickle') as f: # Python 3: open(..., 'wb')
matrix = pickle.load(f) #Loads the TF-IDF Vectors
print('LSAING . . .')
lsa = TruncatedSVD(n_components=300, n_iter=10) #Perform the Feature Reduction
lsa.fit(matrix)
matrix_T = lsa.fit_transform(matrix)
print('Dumping')
with open('lsa.pickle', 'w') as f:
pickle.dump(lsa, f) #Dumps the new features
我正在使用具有 8GB RAM 的 i7-5500 处理器。