“feature-selection”的相关标签问题

0 投票

1 回答

4422 浏览

r - 特征选择 + 交叉验证，但如何在 R 中制作 ROC 曲线

我被下一个问题困住了。我将我的数据分成 10 份。每次，我使用 1 折作为测试集，另外 9 折作为训练集（我这样做十次）。在每个训练集上，我进行特征选择（使用 chi.squared 过滤方法），然后使用我的训练集和所选特征制作 SVM 模型。
所以最后，我变成了 10 个不同的模型（因为特征选择）。但是现在我想从这个过滤器方法中制作 R 中的 ROC 曲线。我怎样才能做到这一点？

丝绸

r feature-selection cross-validation roc

2013-12-03T08:51:46.787

0 投票

0 回答

903 浏览

matlab - 多个特征的最近邻分类器

我有一个如下所示的数据集：

这些行包含具有许多特征的对象。出于演示目的，我放置了 5 个特征，但每个对象大约有 50 个特征，最后一列是每个对象的类标签。

我想在这个数据集上创建并运行最近邻分类器算法并检索错误率。我已经设法让 NN 算法适用于每个特征，下面是一个简短的伪代码示例。对于每个特征，我遍历每个对象，根据其最近的邻居分配对象 j。

我遇到的问题是如何为多个特征制定 1-NN 算法。我将从我的数据集中选择特征 1,2 和 3。如果我将特征 5 添加到我的一组选定特征中，我想计算错误率。我想用 1NN 来解决这个错误。我会在我选择的特征中找到我所有特征 1-3 中最接近的值吗？

例如，对于我上面的数据集：

添加特征 5 - 对于特征 5 的对象 1，最接近的数字是特征 3 的对象 4。由于它的类标签为 2，我将把特征 5 的对象 1 分配给类 2。这显然是一个错误分类，但我会继续对特征 5 中的所有其他对象进行分类，并比较分配的值和实际值。

这是针对多个特征执行 1NN 的正确方法吗？

matlab classification nearest-neighbor feature-selection

2013-12-09T17:06:02.317

0 投票

2 回答

6553 浏览

machine-learning - 标准化 SVM 的特征值

我一直在玩一些 SVM 实现，我想知道 - 将特征值归一化以适应一个范围的最佳方法是什么？（从 0 到 1）

假设我有 3 个特征，其值范围为：

3 - 5。
0.02 - 0.05
10-15。

如何将所有这些值转换为 [0,1] 的范围？

如果在训练期间，我将遇到的特征编号 1 的最大值是 5，并且在我开始在更大的数据集上使用我的模型后，我会偶然发现高达 7 的值？然后在转换后的范围内，它将超过 1...

如何在训练期间对值进行归一化，以考虑“野外值”超过模型在训练期间“看到”的最高（或最低）值的可能性？模型将如何对此做出反应，以及当这种情况发生时我如何使其正常工作？

machine-learning range normalization svm feature-selection

2013-12-10T22:28:18.143

0 投票

1 回答

6143 浏览

optimization - 如何识别WEKA中的相关特征？

我想在 WEKA 中进行特征分析。我有一个包含 8 个特征和 65 个实例的数据集。

我想执行可用于 SVM 等机器学习方法的特征选择和优化功能。例如，在 Weka 中，我想知道如何显示哪些特征对分类结果贡献最大。

我认为 WEKA 提供了一个很好的图形用户界面，并允许对单个特性的影响进行非常详细的分析。但我不知道如何使用它。有什么帮助吗？

optimization weka feature-selection

2013-12-12T07:44:49.220

0 投票

1 回答

691 浏览

map - 具有多层的 Openlayer 特征选择

我和我一起工作Openlayer并且我有多个层（A,B,C,D）。

A层是基础层。我想单击图层 C 以获取信息，但操作属于图层A作为基础图层。

有谁能够帮我？

map openlayers gis feature-selection

2013-12-13T13:45:55.690

0 投票

3 回答

1821 浏览

java - 特征选择文本挖掘

我们正在完成一项关于文本分类的任务，我们使用一种无监督机器学习模型。

在我们进行文本聚类之前，数据集必须经过几个步骤，例如从停用词中清除它，从文本中提取词干词，然后获取特征选择。

阅读有关特征选择的信息，我可以应用多种方法进行特征选择，例如信息增益、基尼指数和互信息。

我想知道这些方法的性质以及如何在编码部分实现它们，是否有任何库可以用来执行这些任务。

java nlp weka text-mining feature-selection

2013-12-23T10:18:36.357

0 投票

1 回答

3109 浏览

matlab - matlab前向特征选择

我使用matlabsequentialfs函数进行前向特征选择，代码如下。我多次重复运行相同的代码，我注意到结果大不相同。虽然每次运行的交叉验证不同（折叠数相同），但我认为选择的特征应该大致相同。有人可以帮忙解释一下吗？谢谢。

matlab machine-learning feature-selection

2013-12-31T04:06:38.203

0 投票

1 回答

200 浏览

onclick - SLDSelect (OpenLayers) 选择的点太多

我在有一些 WMS 图层的地图中添加了 SLDSelect；选择有效，但它考虑了一个大区域，而不仅仅是我点击的点，所以如果我点击一个点图层，控件会突出显示我点击的那个点旁边的所有点。

这是我用来创建控件的代码：

如何指定设置以减少单击地图时视为选择的区域？

谢谢你，再见斯特凡诺

onclick openlayers highlighting feature-selection sld

2014-01-11T10:50:28.363

0 投票

2 回答

2660 浏览

r - 如何从 R 中的 GLM 调用中检索原始变量名称的列表？

在 R 中使用glm函数时，可以使用类似addNA或log内部formula参数的函数。假设我们有一个Data包含 4 列的数据框：Class，var1它们是因子，var2，var3它们是数字变量，我们适合：

在 glm 输出变量 1 现在将被调用addNA(var1)（例如 in Model$xlevels），而变量 3 将被调用log(var3)。

是否可以从 glm 输出中检索一个列表，该列表表明 var1、var2 和 var3 是从数据帧中提取的，而变量名称中没有出现 addNA(var1) 或 log(var3)？

更一般地说，在调用 glm之后，在 glm 函数内部生成任何转换/交叉项等之前，是否可以推断出 glm 从输入数据帧中提取了哪些列？

r glm feature-selection model-fitting

2014-01-14T13:51:37.963

0 投票

1 回答

2614 浏览

r - 使用 R 进行 PCA 特征选择

我是生物学家。我的实验输出包含大量特征（存储为列数和 563 行）。这些列是数量为 8603 的特征，这些特征非常高。

因此，当我尝试在 R 中进行 PCA 分析时，它会出现“内存不足”错误。

我也尝试过分片做princomp，但它似乎不适用于我们的方法。

我尝试使用链接中给出的脚本...

http://www.r-bloggers.com/introduction-to-feature-selection-for-bioinformaticians-using-r-correlation-matrix-filters-pca-backward-selection/

但它还是不行:(

我正在尝试使用以下代码

但是第二行

boxplot(bumpus, main="Bumpus 数据的箱线图") ## 显示错误

错误是

请帮忙！

r feature-selection

2014-01-16T07:27:24.247

问题标签 [feature-selection]

Reference