matlab - 顺序特征选择 Matlab

Question

有人可以解释如何在 Matlab“sequentialfs”中使用这个函数吗

它看起来很简单，但我不知道我们如何为它设计一个函数处理程序？！

有什么线索吗？！

score 19 · Accepted Answer

这是一个比文档中的示例更简单的示例。

首先让我们创建一个非常简单的数据集。我们有一些类标签y。500 个来自 class 0，500 个来自 class 1，它们是随机排序的。

>> y = [zeros(500,1); ones(500,1)];
>> y = y(randperm(1000));

我们有 100 个变量x要用来预测y。其中 99 个只是随机噪声，但其中一个与类标签高度相关。

>> x = rand(1000,99);
>> x(:,100) = y + rand(1000,1)*0.1;

现在假设我们要使用线性判别分析对点进行分类。如果我们在不应用任何特征选择的情况下直接执行此操作，我们将首先将数据拆分为训练集和测试集：

>> xtrain = x(1:700, :); xtest = x(701:end, :);
>> ytrain = y(1:700); ytest = y(701:end);

然后我们将它们分类：

>> ypred = classify(xtest, xtrain, ytrain);

最后我们将测量预测的错误率：

>> sum(ytest ~= ypred)
ans =
     0

在这种情况下，我们得到了完美的分类。

要使函数句柄与一起使用sequentialfs，只需将这些部分放在一起：

>> f = @(xtrain, ytrain, xtest, ytest) sum(ytest ~= classify(xtest, xtrain, ytrain));

并将它们一起传递到sequentialfs：

>> fs = sequentialfs(f,x,y)
fs =
  Columns 1 through 16
     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
  Columns 17 through 32
     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
  Columns 33 through 48
     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
  Columns 49 through 64
     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
  Columns 65 through 80
     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
  Columns 81 through 96
     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
  Columns 97 through 100
     0     0     0     1

输出中的最终1结果表明变量 100 是如预期的那样，是y中的变量中的最佳预测器x。

文档中的示例sequentialfs稍微复杂一些，主要是因为预测的类标签是字符串而不是上面的数值，所以~strcmp用于计算错误率而不是~=. 此外，它利用交叉验证来估计错误率，而不是像上面那样直接评估。

matlab - 顺序特征选择 Matlab

1 回答 1

Related

Reference