2

我正在尝试实现非负矩阵分解,以便为推荐引擎项目找到矩阵的缺失值。我正在使用 nimfa 库来实现矩阵分解。但似乎无法弄清楚如何预测缺失值。该矩阵中的缺失值用 0 表示。

a=[[ 1.          0.45643546  0.          0.1         0.10327956  0.0225877 ]
 [ 0.15214515  1.          0.04811252  0.07607258  0.23570226  0.38271325]
 [ 0.          0.14433757  1.          0.07905694  0.          0.42857143]
 [ 0.1         0.22821773  0.07905694  1.          0.          0.27105237]
 [ 0.06885304  0.47140452  0.          0.          1.          0.13608276]
 [ 0.00903508  0.4592559   0.17142857  0.10842095  0.08164966  1.        ]]

import nimfa
model = nimfa.Lsnmf(a, max_iter=100000,rank =4)
#fit the model
fit = model()
#get U and V matrices from fit
U = fit.basis()
V = fit.coef()
print numpy.dot(U,V)

但是给出的 ans 几乎与 a 相同,我无法预测零值。请告诉我使用哪种方法或任何其他可能的实现以及任何可能的资源。

我想使用这个函数来最小化预测值的错误。

错误=|| a - UV ||_F + c*||U||_F + c*||V||_F

其中 _F 表示 frobenius 范数

4

1 回答 1

1

我以前没有使用过 nimfa,所以我无法确切回答如何做到这一点,但是使用sklearn,您可以执行预处理器来转换缺失值,如下所示:

In [28]: import numpy as np

In [29]: from sklearn.preprocessing import Imputer

# prepare a numpy array 
In [30]: a = np.array(a)

In [31]: a
Out[31]: 
array([[ 1.        ,  0.45643546,  0.        ,  0.1       ,  0.10327956,
         0.0225877 ],
       [ 0.15214515,  1.        ,  0.04811252,  0.07607258,  0.23570226,
         0.38271325],
       [ 0.        ,  0.14433757,  1.        ,  0.07905694,  0.        ,
         0.42857143],
       [ 0.1       ,  0.22821773,  0.07905694,  1.        ,  0.        ,
         0.27105237],
       [ 0.06885304,  0.47140452,  0.        ,  0.        ,  1.        ,
         0.13608276],
       [ 0.00903508,  0.4592559 ,  0.17142857,  0.10842095,  0.08164966,
         1.        ]])

In [32]: pre = Imputer(missing_values=0, strategy='mean')

# transform missing_values as "0" using mean strategy
In [33]: pre.fit_transform(a)
Out[33]: 
array([[ 1.        ,  0.45643546,  0.32464951,  0.1       ,  0.10327956,
         0.0225877 ],
       [ 0.15214515,  1.        ,  0.04811252,  0.07607258,  0.23570226,
         0.38271325],
       [ 0.26600665,  0.14433757,  1.        ,  0.07905694,  0.35515787,
         0.42857143],
       [ 0.1       ,  0.22821773,  0.07905694,  1.        ,  0.35515787,
         0.27105237],
       [ 0.06885304,  0.47140452,  0.32464951,  0.27271009,  1.        ,
         0.13608276],
       [ 0.00903508,  0.4592559 ,  0.17142857,  0.10842095,  0.08164966,
         1.        ]])

你可以在这里阅读更多。

于 2015-10-30T17:01:18.410 回答