问题标签 [feature-selection]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1368 问题

0 投票

1 回答

19447 浏览

scikit-learn - 找到重要的分类特征

我正在尝试使用逻辑回归模型对一些 EEG 数据进行分类（这似乎对我的数据进行了最佳分类）。我拥有的数据来自多通道 EEG 设置，所以本质上我有一个 63 x 116 x 50 的矩阵（即通道 x 时间点 x 试验次数（有两种试验类型 50），我已将其重新调整为长向量，每个试验一个。

我想做的是在分类之后查看哪些特征在对试验进行分类时最有用。我该怎么做？是否可以测试这些功能的重要性？例如，分类主要由 N 个特征驱动，这些是特征 x 到 z。因此，例如，我可以说通道 10 在时间点 90-95 对分类很重要或很重要。

那么这是可能的还是我问错了问题？

非常感谢任何评论或论文参考。

scikit-learn feature-selection

2013-04-03T19:26:40.243

0 投票

7 回答

72894 浏览

scikit-learn - RandomForestClassifier 中的 feature_importances 是如何确定的？

我有一个以时间序列作为数据输入的分类任务，其中每个属性 (n=23) 代表一个特定的时间点。除了绝对分类结果，我想知道哪些属性/日期对结果的贡献程度。因此，我只是使用feature_importances_，这对我来说效果很好。

但是，我想知道它们是如何计算的以及使用了哪种度量/算法。不幸的是，我找不到有关此主题的任何文档。

2013-04-04T11:53:03.917

0 投票

3 回答

1639 浏览

python - 包含字符串和数值的数据集中的特征选择？

嗨，我有大数据集，其中既有字符串又有数值。

用户名（str），手机（str），请求数（int），下载次数（int），.......

我有大约 200 个这样的专栏。

有没有一种方法/算法可以在特征选择期间同时处理字符串和整数？或者我应该如何处理这个问题。

谢谢

python machine-learning weka rapidminer feature-selection

2013-04-07T21:34:28.790

0 投票

4 回答

18297 浏览

machine-learning - PCA（主成分分析）和特征选择之间的区别

机器学习中的主成分分析（PCA）和特征选择有什么区别？PCA 是一种特征选择的方法吗？

machine-learning pca feature-selection

2013-04-27T07:41:39.013

0 投票

0 回答

387 浏览

image - 如何组合两个特征（两个最小距离分类器）

大家好，我在这里的第一篇文章，

我在没有事先培训的情况下通过图像跟踪对象。我使用了两个特征，区域的颜色（Lab 空间的 ab 通道）和 HOG。在我最初的实验中，我发现使用 min. 仅具有HOG特征的距离分类器具有低误报FP但具有高FN的优点。另一方面，使用最小值。仅使用颜色的距离分类器会增加 TP 并降低 FN 结果，但代价是 FP 增加。

我的问题是如何结合这两个分类器？我想知道以无监督方式执行此操作的标准算法。

我试图将这两个特征组合成一个特征（归一化后），但 HOG 占主导地位。即使我对组合特征进行加权，结果也比两者中的任何一个都差。

到目前为止，我达到的好结果是（级联）两个分类器，首先运行颜色以增加可能性，然后运行 HOG（阈值比单独使用 HOG 的阈值高一点）。我用谷歌搜索了这个主题，但我没有足够的分类知识来找到标准方法。

感谢帮助

image matlab object classification feature-selection

2013-05-04T07:35:08.730

0 投票

2 回答

4159 浏览

scikit-learn - 多标签分类的特征选择（scikit-learn）

我正在尝试通过 scikit-learn (sklearn.feature_selection.SelectKBest) 中的卡方方法进行特征选择。当我尝试将此应用于多标签问题时，我收到以下警告：

UserWarning: Duplicate scores. Result may depend on feature ordering.There are probably duplicate features, or you used a classification score for a regression task. warn("Duplicate scores. Result may depend on feature ordering."

为什么会出现这种情况以及如何正确应用特征选择？

scikit-learn feature-selection chi-squared

2013-05-06T14:18:09.863

0 投票

1 回答

571 浏览

matlab - SVM LibSVM 在预测时忽略特征 1,3,5

这个问题一般是关于 LibSVM 或 SVM 的。我想知道是否可以使用相同的 SVM 模型对不同长度的特征向量进行分类。

假设我们用以下特征向量的大约 1000 个实例训练 SVM：[feature1 feature2 feature3 feature4 feature5]

现在我想预测一个长度为 5 的测试向量。如果我收到的概率太低，我现在想检查包含 2-5 列的测试向量的第一个子集。所以我想关闭 1 功能。

我现在的问题是：是否可以告诉 SVM 只检查特征 2-5 以进行预测（例如使用权重），还是我必须训练不同的 SVM 模型。一个用于 5 个功能，另一个用于 4 个功能等等......？

提前致谢...

马库斯

matlab svm libsvm prediction feature-selection

2013-05-08T13:06:43.743

0 投票

1 回答

3255 浏览

java - 使用神经网络进行文本分类

有人能告诉我如何使用神经网络对一些短信进行分类吗？有没有例子？如何预处理文本消息以训练神经网络？

谢谢

java text machine-learning neural-network feature-selection

2013-05-09T05:03:51.353

0 投票

3 回答

1005 浏览

classification - weka中新实例的分类

在我们的训练集中，我们执行了特征选择（例如 CfsSubsetEval GreedyStepwise），然后使用分类器（例如 J48）对实例进行分类。我们已经保存了 Weka 创建的模型。

现在，我们要对新的 [未标记] 实例进行分类（在进行特征选择之前，它仍然具有训练集的原始属性数量）。我们是否正确假设我们应该在这组新的 [未标记] 实例中执行特征选择，以便我们可以使用保存的模型重新评估它（以使训练和测试集兼容）？如果是，我们如何过滤测试集？

感谢您的帮助！

classification weka feature-selection

2013-05-18T07:37:57.497

0 投票

2 回答

10828 浏览

r - 在具有数字和分类变量的数据集中使用 R 进行分类

我正在处理一个非常大的数据集。（csv）

数据集由数值列和分类列组成。

其中一列是我的“目标列”，这意味着我想使用其他列来确定哪个值（在 3 个可能的已知值中）可能在“目标列”中。最后检查我的分类与真实数据。

我的问题：

我正在使用 R。

我正在尝试找到一种方法来选择能够提供最佳分类的特征子集。遍历所有子集是不可能的。

有谁知道算法或可以想办法在 R 上做到这一点？

r machine-learning classification feature-selection

2013-05-24T05:59:36.077

1 2 3 4 5 6 7 8 9 10

问题标签 [feature-selection]

Reference