问题标签 [feature-selection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
210 浏览

machine-learning - 通过模拟退火对 SVM 进行特征选择

模拟退火(SA)在许多优化问题中是众所周知的。可以在此处阅读有关 SA 的更多信息 http://en.wikipedia.org/wiki/Simulated_annealing

我只是对使用支持向量机分类进行特征选择的 SA 感兴趣,即我们需要从输入数据中定义一个子集以用作具有低分类错误的 SVM 的特征向量。因此我们可以将每个输入数据子集理解为状态 s,其能量 E(s) 作为分类错误的成本函数。

我的问题是如何为每个向量选择初始标签集?一开始可以随意吗?

每个状态的成本函数公式是什么(通常,对于非线性核 SVM)?以及如何定义下一个状态(选择下一个子集)?

0 投票
1 回答
345 浏览

genetic-algorithm - 小波包分解、特征选择和SVM

我想了解更多关于使用小波包分解、特征选择和 SVM 的故障检测模型。可以在这里阅读一些相关论文:

http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4547208

https://mospace.umsystem.edu/xmlui/bitstream/handle/10355/4845/research.pdf?sequence=3

我的问题是在“特征选择”步骤中,我们需要选择小波包节点(及其计算的 rms 值)作为最终 SVM 分类器的特征。在 SVM 中,我们还需要知道每个向量的标签 (+1, -1),但是我们如何在特征选择过程中获得这个标签。我真的不太了解使用 10 倍 SVM 的遗传算法(GA),如上述论文。任何人都可以向我解释这一点吗?

0 投票
1 回答
7992 浏览

r - R randomForest 的 rfcv 方法实际上是否说明了它选择了哪些功能?

在创建具有更多树的最终随机森林之前,我想使用 rfcv 从数据集中剔除不重要的变量(如果这不是使用此函数的方法,请更正并通知我)。例如,

在这种情况下,如果我正确理解结果,似乎我们可以删除三个变量而不会产生负面影响。然而,

这些插槽都没有告诉我可以从数据集中无害地删除的前三个变量实际上是什么。

0 投票
1 回答
615 浏览

machine-learning - 如何结合不同的 NLP 特征进行机器学习?

我正在尝试使用不同的 NLP 功能进行一些 KNN 学习。例如,我想使用词袋和本地 POS 标签。

另外,我对如何计算单个特征的相似度有一些想法。就像使用计数的余弦相似度(对于词袋向量),或者可能使用汉明距离作为 POS 标签。

但是,我不知道如何将两者结合起来。该地区的人通常如何做到这一点?有人可以帮我吗?

提前致谢。

0 投票
3 回答
9839 浏览

matlab - Matlab:Kmeans每次给出不同的结果

我在 400x1000 矩阵上的 matlab 中运行 kmeans,由于某种原因,每当我运行算法时,我都会得到不同的结果。下面是一个代码示例:

出于某种原因,每次运行此代码时都会得到不同的结果?有任何想法吗?

我正在使用它来识别多重共线性问题。

谢谢您的帮助!

0 投票
2 回答
32493 浏览

python - TypeError:只有一个元素的整数数组可以转换为索引

使用交叉验证执行递归特征选择时出现以下错误:

产生错误的代码如下:

我知道我还应该对 LogisticRegression 分类器的参数执行 GridSearch,但我认为这不是错误的根源(或者是吗?)。

我应该提一下,我正在测试大约 50 个功能,并且几乎所有功能都是分类的(这就是我使用 DictVectorizer 对它们进行适当转换的原因)。

您可以给我的任何帮助或指导都非常受欢迎。谢谢!

编辑

以下是一些训练数据示例:

0 投票
1 回答
2052 浏览

python - 首先要做什么:特征选择还是模型参数设置?

这更像是一个“理论”问题。我正在使用 scikit-learn 包来执行一些 NLP 任务。Sklearn 提供了许多方法来执行特征选择和模型参数的设置。我想知道我应该先做什么。

如果我使用单变量特征选择,很明显我应该先进行特征选择,然后使用所选特征调整估计器的参数。

但是如果我想使用递归特征消除呢?我应该先使用所有原始特征通过网格搜索设置参数,然后再执行特征选择吗?或者我应该先选择特征(使用估计器的默认参数),然后使用所选特征设置参数?

提前感谢您能给我的任何帮助。

编辑

我遇到了这里所说的几乎相同的问题。到那时,还没有解决办法。有谁知道它现在是否存在?

0 投票
1 回答
924 浏览

r - 在插入符号中访问 rfe 生成的所有模型

我正在使用rfecaret 包中的函数为逻辑回归模型进行特征选择。我正在查看sizes5、10、15、20 和 25 选择使用 Rsquared 的最佳模型(我的因变量是 0,1)。rfe除了最终选择的模型之外,有没有办法访问该函数产生的其他模型?

0 投票
1 回答
1201 浏览

r - 并行化 rfcv() 函数以在 randomForest 包中进行特征选择

我想知道是否有人知道如何并行化R-package 'randomForest'中实现的rfcv()函数。对不起,如果这个问题听起来很基本,但我尝试使用“foreach”来做到这一点,但没有任何结果。

0 投票
1 回答
1239 浏览

python - sci-kit learn:使用 SelectKBest 时识别对应的 feature-id 值

我正在使用 sci-kit learn(0.11 版和 Python 2.7.3 版)从 svmlight 格式的二进制分类数据集中选择前 K 个特征。

我正在尝试识别所选功能的功能 ID 值。我认为这会很简单——而且很可能!(通过 feature-id,我的意思是这里描述的特征值之前的数字)

下面的代码准确地说明了我是如何尝试这样做的:

显然,assumed_to_be_the_feature_ids_of_the_top_k_features 不能对应于特征 ID 值 - 因为(见下文)我的输入文件中的特征 ID 值从 1 开始。

现在,我怀疑这assumed_to_be_the_feature_ids_of_the_top_k_features实际上可能对应于按递增值排序的特征 ID 值的列表索引。在我的情况下,索引 0 将对应于feature-id=1等 - 这样代码告诉我feature-id=1并被feature-id=3选中。

但是,如果有人可以确认或否认这一点,我将不胜感激。

提前致谢。

contrived_svmlight_train_file.txt 的内容

PS抱歉格式不正确(第一次在这里);我希望这是清晰易懂的!