python - Python中的矩阵完成

Question

假设我有一个矩阵：

> import numpy as nap
> a = np.random.random((5,5))

array([[ 0.28164485,  0.76200749,  0.59324211,  0.15201506,  0.74084168],
       [ 0.83572213,  0.63735993,  0.28039542,  0.19191284,  0.48419414],
       [ 0.99967476,  0.8029097 ,  0.53140614,  0.24026153,  0.94805153],
       [ 0.92478   ,  0.43488547,  0.76320656,  0.39969956,  0.46490674],
       [ 0.83315135,  0.94781119,  0.80455425,  0.46291229,  0.70498372]])

我用打了一些洞np.NaN，例如：

> a[(1,4,0,3),(2,4,2,0)] = np.NaN; 

array([[ 0.80327707,  0.87722234,         nan,  0.94463778,  0.78089194],
       [ 0.90584284,  0.18348667,         nan,  0.82401826,  0.42947815],
       [ 0.05913957,  0.15512961,  0.08328608,  0.97636309,  0.84573433],
       [        nan,  0.30120861,  0.46829231,  0.52358888,  0.89510461],
       [ 0.19877877,  0.99423591,  0.17236892,  0.88059185,        nan ]])

我想nan使用矩阵其余条目中的信息填写条目。一个例子是使用出现条目的列的平均值。nan

更一般地说，Python中有没有用于矩阵完成的库？（例如，类似于Candes & Recht 的凸优化方法）。

背景：

这个问题经常出现在机器学习中。例如，在分类/回归或协同过滤中处理缺失的特征时（例如，参见维基百科上的 Netflix 问题和此处）

score 12 · Accepted Answer

如果你安装了最新的 scikit-learn 0.14a1 版本，你可以使用它闪亮的新Imputer类：

>>> from sklearn.preprocessing import Imputer
>>> imp = Imputer(strategy="mean")
>>> a = np.random.random((5,5))
>>> a[(1,4,0,3),(2,4,2,0)] = np.nan
>>> a
array([[ 0.77473361,  0.62987193,         nan,  0.11367791,  0.17633671],
       [ 0.68555944,  0.54680378,         nan,  0.64186838,  0.15563309],
       [ 0.37784422,  0.59678177,  0.08103329,  0.60760487,  0.65288022],
       [        nan,  0.54097945,  0.30680838,  0.82303869,  0.22784574],
       [ 0.21223024,  0.06426663,  0.34254093,  0.22115931,         nan]])
>>> a = imp.fit_transform(a)
>>> a
array([[ 0.77473361,  0.62987193,  0.24346087,  0.11367791,  0.17633671],
       [ 0.68555944,  0.54680378,  0.24346087,  0.64186838,  0.15563309],
       [ 0.37784422,  0.59678177,  0.08103329,  0.60760487,  0.65288022],
       [ 0.51259188,  0.54097945,  0.30680838,  0.82303869,  0.22784574],
       [ 0.21223024,  0.06426663,  0.34254093,  0.22115931,  0.30317394]])

在此之后，您可以使用从中学习imp.transform的均值对其他数据进行相同的转换。Imputers 绑定到 scikit-learn对象，因此您可以在分类或回归管道中使用它们。impaPipeline

如果您想等待稳定版本，那么 0.14 应该会在下周发布。

全面披露：我是 scikit-learn 核心开发人员

score 5 · Accepted Answer

你可以用纯 numpy 来做，但它更糟糕。

from scipy.stats import nanmean
>>> a
array([[ 0.70309466,  0.53785006,         nan,  0.49590115,  0.23521493],
       [ 0.29067786,  0.48236186,         nan,  0.93220001,  0.76261019],
       [ 0.66243065,  0.07731947,  0.38887545,  0.56450533,  0.58647126],
       [        nan,  0.7870873 ,  0.60010096,  0.88778259,  0.09097726],
       [ 0.02750389,  0.72328898,  0.69820328,  0.02435883,         nan]])


>>> mean=nanmean(a,axis=0)
>>> mean
array([ 0.42092677,  0.52158153,  0.56239323,  0.58094958,  0.41881841])
>>> index=np.where(np.isnan(a))

>>> a[index]=np.take(mean,index[1])
>>> a
array([[ 0.70309466,  0.53785006,  0.56239323,  0.49590115,  0.23521493],
       [ 0.29067786,  0.48236186,  0.56239323,  0.93220001,  0.76261019],
       [ 0.66243065,  0.07731947,  0.38887545,  0.56450533,  0.58647126],
       [ 0.42092677,  0.7870873 ,  0.60010096,  0.88778259,  0.09097726],
       [ 0.02750389,  0.72328898,  0.69820328,  0.02435883,  0.41881841]])

运行一些时间：

import time
import numpy as np
import pandas as pd
from scipy.stats import nanmean

a = np.random.random((10000,10000))
col=np.random.randint(0,10000,500)
row=np.random.randint(0,10000,500)
a[(col,row)]=np.nan
a1=np.copy(a)


%timeit mean=nanmean(a,axis=0);index=np.where(np.isnan(a));a[index]=np.take(mean,index[1])
1 loops, best of 3: 1.84 s per loop

%timeit DF=pd.DataFrame(a1);col_means = DF.apply(np.mean, 0);DF.fillna(value=col_means)
1 loops, best of 3: 5.81 s per loop

#Surprisingly, issue could be apply looping over the zero axis.
DF=pd.DataFrame(a2)
%timeit col_means = DF.apply(np.mean, 0);DF.fillna(value=col_means)
1 loops, best of 3: 5.57 s per loop

我不相信 numpy 内置了数组完成例程；但是，熊猫可以。在此处查看帮助主题。

score 4 · Accepted Answer

你可以很简单地做到这一点pandas

import pandas as pd

DF = pd.DataFrame(a)
col_means = DF.apply(np.mean, 0)
DF.fillna(value=col_means)

score 4 · Accepted Answer

您想要的确切方法（Candes 和 Recht，2008）可用于fancyimpute库中的 Python，位于此处（链接）。

from fancyimpute import NuclearNormMinimization

# X is the complete data matrix
# X_incomplete has the same values as X except a subset have been replace with NaN

X_filled_nnm = NuclearNormMinimization().complete(X_incomplete)

我已经看到了很好的结果。值得庆幸的是，他们将 autodiff 和 SGD 后端从在后台downhill使用的更改为过去一年。该算法在这个库中也可用（链接）。SciKit-Learn不包含此算法。它不在文档中，但您可以安装：TheanokerasImputer()fancyimputepip

pip install fancyimpute

score 2 · Accepted Answer

以前在这里提出过类似的问题。您需要的是inpaiting的特殊情况。不幸的是，numpy 或 scipy 都没有为此的内置例程。但是，OpenCV 有一个功能，但它只适用于 8 位图像。 inpaint()

OpenPIV具有replace_nans可用于您的目的的功能。（有关 Cython 版本，请参见此处，如果您不想安装整个库，可以重新打包。）它比其他答案中建议的纯均值或旧值传播更灵活（例如，您可以定义不同的加权函数，内核大小等）。

使用来自@Ophion 的示例，我将其replace_nans与nanmeanPandas 解决方案进行了比较：

import numpy as np
import pandas as pd
from scipy.stats import nanmean

a = np.random.random((10000,10000))
col=np.random.randint(0,10000,500)
row=np.random.randint(0,10000,500)
a[(col,row)]=np.nan
a1=np.copy(a)

%timeit new_array = replace_nans(a1, 10, 0.5, 1.)
1 loops, best of 3: 1.57 s per loop

%timeit mean=nanmean(a,axis=0);index=np.where(np.isnan(a));a[index]=np.take(mean,index[1])
1 loops, best of 3: 2.23 s per loop

%timeit DF=pd.DataFrame(a1);col_means = DF.apply(np.mean, 0);DF.fillna(value=col_means)
1 loops, best of 3: 7.23 s per loop

该replace_nans解决方案可以说是更好更快。

python - Python中的矩阵完成

背景：

5 回答 5

Related

Reference