问题标签 [feature-selection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
77 浏览

image-processing - 对图像特征到底是什么感到困惑

我在维基百科上阅读了有关图像功能的信息,但我仍然对它们到底是什么感到困惑。
术语的解释方式使我无法消除我的困惑。

1. They represent a Class (edge is a feature and boundry is another)
2. They represent a instance of a Class(all the edges detected will be a feature)

假设我检测到一个对象的所有角并将它们放在一个arraysayA中。
我是只获得了一项功能,还是获得了features=len(A).

0 投票
2 回答
518 浏览

matlab - 两个特征选择算法的结果不匹配

我正在为一个实际问题研究两种特征选择算法,其中样本大小为 30,特征大小为 80。第一个算法是使用 SVM 分类器的包装器前向特征选择,第二个是使用 Pearson 积矩相关性的过滤器特征选择算法系数和 Spearman 等级相关系数。事实证明,这两种算法选择的特征根本没有重叠。合理吗?这是否意味着我在实施中犯了错误?谢谢你。仅供参考,我正在使用 Libsvm + matlab。

0 投票
3 回答
710 浏览

machine-learning - 卡方作为回归的评分函数

它记录在http://scikit-learn.org/0.9/modules/feature_selection.html警告注意不要使用回归评分函数来处理分类问题。”

我试图找到回归问题的最佳特征,并使用 f_regression 作为评分函数。但它非常消耗内存,我的 8GB 机器挂起,最后我得到内存错误。

我使用 Chi2 作为相同问题的评分函数,它的工作速度非常快。想知道警告的反面是否属实?如果不能,我可以使用Chi2作为回归问题的评分函数吗?

0 投票
0 回答
347 浏览

r - R LiblineaR 权重不随类标签而变化

我想在 R 中使用对大型数据集有效的 LiblineaR 库。(我想在 wieghts 上使用 l1-norm 进行特征选择,但与这个问题无关)。我观察到的是,即使更改了类标签,权重也不会改变。这是一个例子;

因此,即使在翻转标签后,权重也保持不变。这对于特征选择是有问题的。

任何想法为什么会这样?

如果使用库 e1071 中的 svm,则原始权重(使用自定义函数计算)按预期翻转。

更新:我用liblinear的 c++ 实现检查了相同的示例,结果权重按预期翻转了它们的符号。

0 投票
3 回答
508 浏览

statistics - 编码风格的监督学习 - 特征选择(Scikit Learn)

我正在研究是否可以根据编码风格自动对学生的代码进行评分。这包括避免重复代码、注释掉代码、变量命名错误等。

我们正在尝试根据过去学期的作文分数(范围从 1-3)来学习,这很好地导致了监督学习。基本思想是我们从学生提交的内容中提取特征,并制作一个特征向量,然后使用 scikit-learn 通过逻辑回归运行它。我们还尝试了各种方法,包括在特征向量上运行 PCA 以降低维度。

我们的分类器只是猜测最频繁的类别,得分为 2。我相信这是因为我们的特征根本无法以任何方式进行预测。有没有其他可能的原因让监督学习算法只猜测主导类?有什么办法可以防止这种情况发生吗?

我认为这是由于功能无法预测,有没有办法确定什么是“好”功能?(好的,我的意思是可区分的或预测的)。

注意:作为一项附带实验,我们通过让读者对已经评分的作业进行评分来测试过去成绩的一致性。他们中只有 55% 的项目给出了相同的作文分数(1-3)。这可能意味着该数据集根本无法分类,因为人类甚至无法始终如一地评分。关于其他想法的任何提示?或者事实是否如此?

功能包括:重复代码行数、平均函数长度、1 个字符变量的数量、包含注释掉代码的行数、最大行长度、未使用的导入计数、未使用的变量、未使用的参数。还有一些……我们可视化了所有特征,发现虽然平均值与分数相关,但变化确实很大(没有希望)。

编辑:我们项目的范围:我们只是试图从一个类中的一个特定项目(给出骨架代码)中学习。我们还不需要一概而论。

0 投票
2 回答
1573 浏览

machine-learning - 机器学习 如何比较不同的特征集

因此,假设我有两组不同的功能 A 和 B。我正在尝试确定哪一组功能是最好的。我使用留一法交叉验证作为最终指标,因为我的数据集很小。我正在尝试弄清楚我的实验设置,我正在选择几种方法:

1)将特征集A提供给我的分类器(并可选择运行特征选择)并将特征集B提供给同一分类器(也可选择运行特征选择),然后比较这两个分类器之间的LOOCV错误?

2)将特征集A和B交给分类器,然后确定地运行特征选择,然后根据选择的特征得出更高层次的结论。(例如,如果选择了更多来自 A 的状态,则特征集 A 似乎具有更多的预后价值)

3)我不知道的其他方式

0 投票
1 回答
368 浏览

machine-learning - 应用特征选择和缩减

我试图模仿一项包括机器学习的研究。因为研究人员在使用分类中的高斯分类器之前同时使用了特征选择和特征缩减。

我的问题如下:假设我有 3 节课。我从总共(比如说)10 个特征中选择(比如说)每个类别的前 3 个最佳特征。选择的特征例如如下:

由于主成分分析或线性判别分析都适用于所有类具有相同特征的完整数据集或至少数据集,我如何在这样的集合上执行特征缩减然后执行训练?

这是论文的链接:说话人依赖的视听情感识别

以下是论文的摘录:

使用 Bhattacharyya 距离作为标准函数的 Plus l-Take Away r 算法选择了前 40 个视觉特征。然后将 PCA 和 LDA 应用于选定的特征集,最后使用单分量高斯分类器进行分类。

0 投票
1 回答
396 浏览

r - weka 相当于 caret 的 rfe 是什么?

我正在使用 weka,并且必须对我的数据集执行属性选择。一位前同事使用 R 的 caret 包中的 rfe 做过一次。在 weka 中与 rfe 等效的功能是什么?我不是统计学家,所以也许这个问题听起来很奇怪,但我感谢任何帮助。

0 投票
3 回答
814 浏览

machine-learning - 计算混合特征分类的向量距离

我正在做一个比较各种分类算法有效性的项目,但我陷入了一个令人沮丧的点。数据可以在这里找到:http: //archive.ics.uci.edu/ml/datasets/Adult分类问题是根据人口普查数据,一个人的年收入是否超过 5 万。

两个示例条目如下:

45, Private, 98092, HS-grad, 9, 已婚-公民-配偶, 销售, 丈夫, 白色, 男性, 0, 0, 60, 美国, <=50K

50, Self-emp-not-inc, 386397, 单身汉, 13, 已婚公民, 销售, 丈夫, 白人, 男性, 0, 0, 60, 美国, <=50K

我熟悉使用欧几里得距离来计算向量之间的差异,但我不确定如何混合使用连续和离散属性。是否有任何有效的方法可以以有意义的方式表示两个向量之间的差异?我很难弄清楚第三个属性(由提取数据集的人根据因素计算的权重,因此相似的权重应该具有相似的属性)之类的值有多大,以及它之间的差异可以保留意义来自男性或女性等离散特征,如果我正确理解该方法,则欧几里得距离仅为 1。我确信可以删除某些类别,但我不想删除那些会显着影响分类的东西。我'

0 投票
1 回答
906 浏览

machine-learning - vowpal wabbit 的功能

我需要从所有命名空间的子集中选择特征组合(二次和三次)。我想避免单一的功能。例子:

我想选择-q m与命名空间'm'组合的所有功能(根据我使用选项的大众命令行)。重要的是,我想避免所有单一功能,如t_20, m_18,o_15等。

使用--ignoreparams 也会删除我不想要的组合。

在源代码中,似乎忽略名称空间在组合之前很早就被删除了。如果需要,我愿意更改 VW 的源代码。