问题标签 [feature-selection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 特征选择 + 交叉验证,但如何在 R 中制作 ROC 曲线
我被下一个问题困住了。我将我的数据分成 10 份。每次,我使用 1 折作为测试集,另外 9 折作为训练集(我这样做十次)。在每个训练集上,我进行特征选择(使用 chi.squared 过滤方法),然后使用我的训练集和所选特征制作 SVM 模型。
所以最后,我变成了 10 个不同的模型(因为特征选择)。但是现在我想从这个过滤器方法中制作 R 中的 ROC 曲线。我怎样才能做到这一点?
丝绸
matlab - 多个特征的最近邻分类器
我有一个如下所示的数据集:
这些行包含具有许多特征的对象。出于演示目的,我放置了 5 个特征,但每个对象大约有 50 个特征,最后一列是每个对象的类标签。
我想在这个数据集上创建并运行最近邻分类器算法并检索错误率。我已经设法让 NN 算法适用于每个特征,下面是一个简短的伪代码示例。对于每个特征,我遍历每个对象,根据其最近的邻居分配对象 j。
我遇到的问题是如何为多个特征制定 1-NN 算法。我将从我的数据集中选择特征 1,2 和 3。如果我将特征 5 添加到我的一组选定特征中,我想计算错误率。我想用 1NN 来解决这个错误。我会在我选择的特征中找到我所有特征 1-3 中最接近的值吗?
例如,对于我上面的数据集:
添加特征 5 - 对于特征 5 的对象 1,最接近的数字是特征 3 的对象 4。由于它的类标签为 2,我将把特征 5 的对象 1 分配给类 2。这显然是一个错误分类,但我会继续对特征 5 中的所有其他对象进行分类,并比较分配的值和实际值。
这是针对多个特征执行 1NN 的正确方法吗?
machine-learning - 标准化 SVM 的特征值
我一直在玩一些 SVM 实现,我想知道 - 将特征值归一化以适应一个范围的最佳方法是什么?(从 0 到 1)
假设我有 3 个特征,其值范围为:
3 - 5。
0.02 - 0.05
10-15。
如何将所有这些值转换为 [0,1] 的范围?
如果在训练期间,我将遇到的特征编号 1 的最大值是 5,并且在我开始在更大的数据集上使用我的模型后,我会偶然发现高达 7 的值?然后在转换后的范围内,它将超过 1...
如何在训练期间对值进行归一化,以考虑“野外值”超过模型在训练期间“看到”的最高(或最低)值的可能性?模型将如何对此做出反应,以及当这种情况发生时我如何使其正常工作?
optimization - 如何识别WEKA中的相关特征?
我想在 WEKA 中进行特征分析。我有一个包含 8 个特征和 65 个实例的数据集。
我想执行可用于 SVM 等机器学习方法的特征选择和优化功能。例如,在 Weka 中,我想知道如何显示哪些特征对分类结果贡献最大。
我认为 WEKA 提供了一个很好的图形用户界面,并允许对单个特性的影响进行非常详细的分析。但我不知道如何使用它。有什么帮助吗?
map - 具有多层的 Openlayer 特征选择
我和我一起工作Openlayer
并且我有多个层(A,B,C,D
)。
A
层是基础层。我想单击图层 C 以获取信息,但操作属于图层A
作为基础图层。
有谁能够帮我?
java - 特征选择文本挖掘
我们正在完成一项关于文本分类的任务,我们使用一种无监督机器学习模型。
在我们进行文本聚类之前,数据集必须经过几个步骤,例如从停用词中清除它,从文本中提取词干词,然后获取特征选择。
阅读有关特征选择的信息,我可以应用多种方法进行特征选择,例如信息增益、基尼指数和互信息。
我想知道这些方法的性质以及如何在编码部分实现它们,是否有任何库可以用来执行这些任务。
matlab - matlab前向特征选择
我使用matlabsequentialfs函数进行前向特征选择,代码如下。我多次重复运行相同的代码,我注意到结果大不相同。虽然每次运行的交叉验证不同(折叠数相同),但我认为选择的特征应该大致相同。有人可以帮忙解释一下吗?谢谢。
onclick - SLDSelect (OpenLayers) 选择的点太多
我在有一些 WMS 图层的地图中添加了 SLDSelect;选择有效,但它考虑了一个大区域,而不仅仅是我点击的点,所以如果我点击一个点图层,控件会突出显示我点击的那个点旁边的所有点。
这是我用来创建控件的代码:
如何指定设置以减少单击地图时视为选择的区域?
谢谢你,再见斯特凡诺
r - 如何从 R 中的 GLM 调用中检索原始变量名称的列表?
在 R 中使用glm
函数时,可以使用类似addNA
或log
内部formula
参数的函数。假设我们有一个Data
包含 4 列的数据框:Class
,var1
它们是因子,var2
,var3
它们是数字变量,我们适合:
在 glm 输出变量 1 现在将被调用addNA(var1)
(例如 in Model$xlevels
),而变量 3 将被调用log(var3)
。
是否可以从 glm 输出中检索一个列表,该列表表明 var1、var2 和 var3 是从数据帧中提取的,而变量名称中没有出现 addNA(var1) 或 log(var3)?
更一般地说,在调用 glm之后,在 glm 函数内部生成任何转换/交叉项等之前,是否可以推断出 glm 从输入数据帧中提取了哪些列?
r - 使用 R 进行 PCA 特征选择
我是生物学家。我的实验输出包含大量特征(存储为列数和 563 行)。这些列是数量为 8603 的特征,这些特征非常高。
因此,当我尝试在 R 中进行 PCA 分析时,它会出现“内存不足”错误。
我也尝试过分片做princomp,但它似乎不适用于我们的方法。
我尝试使用链接中给出的脚本...
但它还是不行:(
我正在尝试使用以下代码
但是第二行
boxplot(bumpus, main="Bumpus 数据的箱线图") ## 显示错误
错误是
请帮忙!