5

我正在做无监督分类。为此,我有 8 个特征(绿色的方差、绿色的标准 div、红色的平均值、红色的方差、红色的标准 div、色调的平均值、色调的方差、色调的标准 div)进行分类每张图片,我想使用 PCA 选择 3 个最重要的特征。我为特征选择编写了以下代码(特征维度为:179X8):

for c=1:size(feature,1)
   feature(c,:)=feature(c,:)-mean(feature)
end

DataCov=cov(feature); % covariance matrix
[PC,variance,explained] = pcacov(DataCov)

这给了我:

个人电脑 =

0.0038   -0.0114    0.0517    0.0593    0.0039    0.3998    0.9085   -0.0922
0.0755   -0.1275    0.6339    0.6824   -0.3241   -0.0377   -0.0641    0.0052
0.7008    0.7113   -0.0040    0.0496   -0.0207    0.0042    0.0012    0.0002
0.0007   -0.0012    0.0051    0.0101    0.0272    0.0288    0.0873    0.9953
0.0320   -0.0236    0.1521    0.2947    0.9416   -0.0142   -0.0289   -0.0266
0.7065   -0.6907   -0.1282   -0.0851    0.0060    0.0003    0.0010   -0.0001
0.0026   -0.0037    0.0632   -0.0446    0.0053    0.9125   -0.4015    0.0088
0.0543   -0.0006    0.7429   -0.6574    0.0838   -0.0705    0.0311   -0.0001

方差 =

0.0179
0.0008
0.0001
0.0000
0.0000
0.0000
0.0000
0.0000

解释 =

94.9471
4.1346
0.6616
0.2358
0.0204
0.0003
0.0002
0.0000

这意味着第一主成分解释了 94.9% 的方差,依此类推……但这些都是从最重要到最不重要的顺序。根据上述信息,我如何知道要选择哪些特征(从 1 到 8)。

4

3 回答 3

6

您的问题与 Mahoney 和 Drineas 在“用于改进数据分析的 CUR 矩阵分解”中讨论的 COLUMNSELECT 问题相同。

他们首先计算每个维度的杠杆分数,然后使用杠杆分数作为权重随机选择其中的 3 个。或者,您可以选择最大的。这是您的问题的脚本:

我首先从网上获得了一张真实的自然图像,并将其调整为您要求的尺寸。图像如下:

图像

%# Example data from real image of size 179x8
%# You can skip it for your own data
features = im2double(rgb2gray(imread('img.png')));

%# m samples, n dimensions
[m,n] = size(features);

然后,计算集中数据:

%# Remove the mean
features = features - repmat(mean(features,2), 1, size(features,2));

我使用 SVD 来计算 PCA,因为它可以提供主成分和系数。如果样本在列中,则U保留主成分。检查本文第二页的关系。

%# Compute the SVD
[U,S,V] = svd(features);

这里的关键思想是我们希望获得具有大部分变化的维度。一个假设是数据中有一些噪音。我们只选择主要的特征向量,例如代表 95% 的数据。

%# Compute the number of eigenvectors representing
%#  the 95% of the variation
coverage = cumsum(diag(S));
coverage = coverage ./ max(coverage);
[~, nEig] = max(coverage > 0.95);

nEig然后使用主成分计算杠杆分数。也就是说,我们取nEig系数的范数。

%# Compute the norms of each vector in the new space
norms = zeros(n,1);
for i = 1:n
    norms(i) = norm(V(i,1:nEig))^2;
end

然后,我们可以对杠杆分数进行排序:

%# Get the largest 3
[~, idx] = sort(norms);
idx(1:3)'

并获得具有最大杠杆分数的向量的索引:

ans =
   6     8     5

您可以查看论文以获取更多详细信息。

但是,请记住,如果您有许多维度,则基于 PCA 的技术是好的。在您的情况下,搜索空间非常小。我的建议是在空间中彻底搜索并按照@amit 的建议获得最佳选择。

于 2012-11-09T14:53:28.853 回答
3

PCA 实际上是在生成一组新特征,每个特征都是原始元素的线性变换。

因此,您获得的向量不能直接转换为您需要选择的特征以获得这种差异——它只是根据原始向量创建一个新特征。
在你的情况下,你得到:

New_Feature = 0.038*F1 + 0.0755*F2 + 0.7008*F3 + ... + 0.0543*F8

New_Feature尽管降维, 这会给你 94.9471% 的信息增益。
(如果你对下一个原理组件做同样的事情并使用它们,你显然会增加你的信息增益)

如果您需要获取原件的子集,而不是创建新功能 - 我会使用其他方法而不是 PCA。

遗传算法通常非常适合子集选择,如果你的特征集只包含 8 个特征——你也可以考虑蛮力搜索——只有 2 8 =256 个可能的子集。在某些情况下,可能会尝试所有子集并查看什么可以为您提供最佳性能。

于 2012-11-09T14:01:55.507 回答
1

来自pcacov 文档

COEFF 是一个 p×p 矩阵,每列包含一个主成分的系数。这些列按分量方差递减的顺序排列。

由于explained表明只有第一个组件确实对解释方差贡献了很大一部分,因此您应该查看 的第一列PC以查看它使用了哪些原始特征:

0.0038
0.0755
0.7008 <---
0.0007 
0.0320 
0.7065 <---
0.0026 
0.0543 

事实证明,在您的示例中,第 3 和第 6 个特征(用 <-- 表示)是第一个主成分的主要贡献者。你可以说这些功能是最重要的。

同样,基于第 1、第 4 和第 7 个特征仅在 的最后几列中获得较大权重的事实,PC可以得出结论,它们相对不重要。

然而,对于这种逐特征分析,PCA 可能不是最合适的。您也可以从原始特征的标准差中得出此类信息。

于 2012-11-09T14:09:17.463 回答