问题标签 [feature-selection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
19447 浏览

scikit-learn - 找到重要的分类特征

我正在尝试使用逻辑回归模型对一些 EEG 数据进行分类(这似乎对我的数据进行了最佳分类)。我拥有的数据来自多通道 EEG 设置,所以本质上我有一个 63 x 116 x 50 的矩阵(即通道 x 时间点 x 试验次数(有两种试验类型 50),我已将其重新调整为长向量,每个试验一个。

我想做的是在分类之后查看哪些特征在对试验进行分类时最有用。我该怎么做?是否可以测试这些功能的重要性?例如,分类主要由 N 个特征驱动,这些是特征 x 到 z。因此,例如,我可以说通道 10 在时间点 90-95 对分类很重要或很重要。

那么这是可能的还是我问错了问题?

非常感谢任何评论或论文参考。

0 投票
7 回答
72894 浏览

scikit-learn - RandomForestClassifier 中的 feature_importances 是如何确定的?

我有一个以时间序列作为数据输入的分类任务,其中每个属性 (n=23) 代表一个特定的时间点。除了绝对分类结果,我想知道哪些属性/日期对结果的贡献程度。因此,我只是使用feature_importances_,这对我来说效果很好。

但是,我想知道它们是如何计算的以及使用了哪种度量/算法。不幸的是,我找不到有关此主题的任何文档。

0 投票
3 回答
1639 浏览

python - 包含字符串和数值的数据集中的特征选择?

嗨,我有大数据集,其中既有字符串又有数值。

用户名(str),手机(str),请求数(int),下载次数(int),.......

我有大约 200 个这样的专栏。

有没有一种方法/算法可以在特征选择期间同时处理字符串和整数?或者我应该如何处理这个问题。

谢谢

0 投票
4 回答
18297 浏览

machine-learning - PCA(主成分分析)和特征选择之间的区别

机器学习中的主成分分析(PCA)和特征选择有什么区别?PCA 是一种特征选择的方法吗?

0 投票
0 回答
387 浏览

image - 如何组合两个特征(两个最小距离分类器)

大家好,我在这里的第一篇文章,

我在没有事先培训的情况下通过图像跟踪对象。我使用了两个特征,区域的颜色(Lab 空间的 ab 通道)和 HOG。在我最初的实验中,我发现使用 min. 仅具有HOG特征的距离分类器具有低误报FP但具有高FN的优点。另一方面,使用最小值。仅使用颜色的距离分类器会增加 TP 并降低 FN 结果,但代价是 FP 增加。

我的问题是如何结合这两个分类器?我想知道以无监督方式执行此操作的标准算法。

我试图将这两个特征组合成一个特征(归一化后),但 HOG 占主导地位。即使我对组合特征进行加权,结果也比两者中的任何一个都差。

到目前为止,我达到的好结果是(级联)两个分类器,首先运行颜色以增加可能性,然后运行 ​​HOG(阈值比单独使用 HOG 的阈值高一点)。我用谷歌搜索了这个主题,但我没有足够的分类知识来找到标准方法。

感谢帮助

0 投票
2 回答
4159 浏览

scikit-learn - 多标签分类的特征选择(scikit-learn)

我正在尝试通过 scikit-learn (sklearn.feature_selection.SelectKBest) 中的卡方方法进行特征选择。当我尝试将此应用于多标签问题时,我收到以下警告:

UserWarning: Duplicate scores. Result may depend on feature ordering.There are probably duplicate features, or you used a classification score for a regression task. warn("Duplicate scores. Result may depend on feature ordering."

为什么会出现这种情况以及如何正确应用特征选择?

0 投票
1 回答
571 浏览

matlab - SVM LibSVM 在预测时忽略特征 1,3,5

这个问题一般是关于 LibSVM 或 SVM 的。我想知道是否可以使用相同的 SVM 模型对不同长度的特征向量进行分类。

假设我们用以下特征向量的大约 1000 个实例训练 SVM:[feature1 feature2 feature3 feature4 feature5]

现在我想预测一个长度为 5 的测试向量。如果我收到的概率太低,我现在想检查包含 2-5 列的测试向量的第一个子集。所以我想关闭 1 功能。

我现在的问题是:是否可以告诉 SVM 只检查特征 2-5 以进行预测(例如使用权重),还是我必须训练不同的 SVM 模型。一个用于 5 个功能,另一个用于 4 个功能等等......?

提前致谢...

马库斯

0 投票
1 回答
3255 浏览

java - 使用神经网络进行文本分类

有人能告诉我如何使用神经网络对一些短信进行分类吗?有没有例子?如何预处理文本消息以训练神经网络?

谢谢

0 投票
3 回答
1005 浏览

classification - weka中新实例的分类

在我们的训练集中,我们执行了特征选择(例如 CfsSubsetEval GreedyStepwise),然后使用分类器(例如 J48)对实例进行分类。我们已经保存了 Weka 创建的模型。

现在,我们要对新的 [未标记] 实例进行分类(在进行特征选择之前,它仍然具有训练集的原始属性数量)。我们是否正确假设我们应该在这组新的 [未标记] 实例中执行特征选择,以便我们可以使用保存的模型重新评估它(以使训练和测试集兼容)?如果是,我们如何过滤测试集?

感谢您的帮助!

0 投票
2 回答
10828 浏览

r - 在具有数字和分类变量的数据集中使用 R 进行分类

我正在处理一个非常大的数据集。(csv)

数据集由数值列和分类列组成。

其中一列是我的“目标列”,这意味着我想使用其他列来确定哪个值(在 3 个可能的已知值中)可能在“目标列”中。最后检查我的分类与真实数据。

我的问题:

我正在使用 R。

我正在尝试找到一种方法来选择能够提供最佳分类的特征子集。遍历所有子集是不可能的。

有谁知道算法或可以想办法在 R 上做到这一点?