1

我使用形状为(323549、4119259)的稀疏矩阵格式从文本数据中保存了我的特征。我正在尝试使用 sklearn 库对它们执行奇异值分解,但是,我不断收到内存错误,这表明我的计算机功能不足以执行特征缩减。有没有更有效的方法来做到这一点?这是我使用的代码。

import numpy as np
from sklearn.decomposition import TruncatedSVD
import pickle


with open('vectors.pickle') as f:  # Python 3: open(..., 'wb')
    matrix = pickle.load(f) #Loads the TF-IDF Vectors



print('LSAING . . .')
lsa = TruncatedSVD(n_components=300, n_iter=10) #Perform the Feature Reduction
lsa.fit(matrix)

matrix_T = lsa.fit_transform(matrix)

print('Dumping')
with open('lsa.pickle', 'w') as f:
    pickle.dump(lsa, f) #Dumps the new features

我正在使用具有 8GB RAM 的 i7-5500 处理器。

4

0 回答 0