问题标签 [feature-selection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4422 浏览

r - 特征选择 + 交叉验证,但如何在 R 中制作 ROC 曲线

我被下一个问题困住了。我将我的数据分成 10 份。每次,我使用 1 折作为测试集,另外 9 折作为训练集(我这样做十次)。在每个训练集上,我进行特征选择(使用 chi.squared 过滤方法),然后使用我的训练集和所选特征制作 SVM 模型。
所以最后,我变成了 10 个不同的模型(因为特征选择)。但是现在我想从这个过滤器方法中制作 R 中的 ROC 曲线。我怎样才能做到这一点?

丝绸

0 投票
0 回答
903 浏览

matlab - 多个特征的最近邻分类器

我有一个如下所示的数据集:

这些行包含具有许多特征的对象。出于演示目的,我放置了 5 个特征,但每个对象大约有 50 个特征,最后一列是每个对象的类标签。

我想在这个数据集上创建并运行最近邻分类器算法并检索错误率。我已经设法让 NN 算法适用于每个特征,下面是一个简短的伪代码示例。对于每个特征,我遍历每个对象,根据其最近的邻居分配对象 j。

我遇到的问题是如何为多个特征制定 1-NN 算法。我将从我的数据集中选择特征 1,2 和 3。如果我将特征 5 添加到我的一组选定特征中,我想计算错误率。我想用 1NN 来解决这个错误。我会在我选择的特征中找到我所有特征 1-3 中最接近的值吗?

例如,对于我上面的数据集:

添加特征 5 - 对于特征 5 的对象 1,最接近的数字是特征 3 的对象 4。由于它的类标签为 2,我将把特征 5 的对象 1 分配给类 2。这显然是一个错误分类,但我会继续对特征 5 中的所有其他对象进行分类,并比较分配的值和实际值。

这是针对多个特征执行 1NN 的正确方法吗?

0 投票
2 回答
6553 浏览

machine-learning - 标准化 SVM 的特征值

我一直在玩一些 SVM 实现,我想知道 - 将特征值归一化以适应一个范围的最佳方法是什么?(从 0 到 1)

假设我有 3 个特征,其值范围为:

  1. 3 - 5。

  2. 0.02 - 0.05

  3. 10-15。

如何将所有这些值转换为 [0,1] 的范围?

如果在训练期间,我将遇到的特征编号 1 的最大值是 5,并且在我开始在更大的数据集上使用我的模型后,我会偶然发现高达 7 的值?然后在转换后的范围内,它将超过 1...

如何在训练期间对值进行归一化,以考虑“野外值”超过模型在训练期间“看到”的最高(或最低)值的可能性?模型将如何对此做出反应,以及当这种情况发生时我如何使其正常工作?

0 投票
1 回答
6143 浏览

optimization - 如何识别WEKA中的相关特征?

我想在 WEKA 中进行特征分析。我有一个包含 8 个特征和 65 个实例的数据集。

我想执行可用于 SVM 等机器学习方法的特征选择和优化功能。例如,在 Weka 中,我想知道如何显示哪些特征对分类结果贡献最大。

我认为 WEKA 提供了一个很好的图形用户界面,并允许对单个特性的影响进行非常详细的分析。但我不知道如何使用它。有什么帮助吗?

0 投票
1 回答
691 浏览

map - 具有多层的 Openlayer 特征选择

我和我一起工作Openlayer并且我有多个层(A,B,C,D)。

A层是基础层。我想单击图层 C 以获取信息,但操作属于图层A作为基础图层。

有谁能够帮我?

0 投票
3 回答
1821 浏览

java - 特征选择文本挖掘

我们正在完成一项关于文本分类的任务,我们使用一种无​​监督机器学习模型。

在我们进行文本聚类之前,数据集必须经过几个步骤,例如从停用词中清除它,从文本中提取词干词,然后获取特征选择。

阅读有关特征选择的信息,我可以应用多种方法进行特征选择,例如信息增益、基尼指数和互信息。

我想知道这些方法的性质以及如何在编码部分实现它们,是否有任何库可以用来执行这些任务。

0 投票
1 回答
3109 浏览

matlab - matlab前向特征选择

我使用matlabsequentialfs函数进行前向特征选择,代码如下。我多次重复运行相同的代码,我注意到结果大不相同。虽然每次运行的交叉验证不同(折叠数相同),但我认为选择的特征应该大致相同。有人可以帮忙解释一下吗?谢谢。

0 投票
1 回答
200 浏览

onclick - SLDSelect (OpenLayers) 选择的点太多

我在有一些 WMS 图层的地图中添加了 SLDSelect;选择有效,但它考虑了一个大区域,而不仅仅是我点击的点,所以如果我点击一个点图层,控件会突出显示我点击的那个点旁边的所有点。

这是我用来创建控件的代码:

如何指定设置以减少单击地图时视为选择的区域?

谢谢你,再见斯特凡诺

0 投票
2 回答
2660 浏览

r - 如何从 R 中的 GLM 调用中检索原始变量名称的列表?

在 R 中使用glm函数时,可以使用类似addNAlog内部formula参数的函数。假设我们有一个Data包含 4 列的数据框:Classvar1它们是因子,var2var3它们是数字变量,我们适合:

在 glm 输出变量 1 现在将被调用addNA(var1)(例如 in Model$xlevels),而变量 3 将被调用log(var3)

是否可以从 glm 输出中检索一个列表,该列表表明 var1、var2 和 var3 是从数据帧中提取的,而变量名称中没有出现 addNA(var1) 或 log(var3)?

更一般地说,在调用 glm之后,在 glm 函数内部生成任何转换/交叉项等之前,是否可以推断出 glm 从输入数据帧中提取了哪些列?

0 投票
1 回答
2614 浏览

r - 使用 R 进行 PCA 特征选择

我是生物学家。我的实验输出包含大量特征(存储为列数和 563 行)。这些列是数量为 8603 的特征,这些特征非常高。

因此,当我尝试在 R 中进行 PCA 分析时,它会出现“内存不足”错误。

我也尝试过分片做princomp,但它似乎不适用于我们的方法。

我尝试使用链接中给出的脚本...

http://www.r-bloggers.com/introduction-to-feature-selection-for-bioinformaticians-using-r-correlation-matrix-filters-pca-backward-selection/

但它还是不行:(

我正在尝试使用以下代码

但是第二行

boxplot(bumpus, main="Bumpus 数据的箱线图") ## 显示错误

错误是

请帮忙!