问题标签 [feature-selection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何使用 R 随机森林来减少没有离散类的属性?
我想使用随机森林来减少属性。我在数据中遇到的一个问题是我没有离散类 - 只有连续类,这表明示例与“正常”有何不同。这个类属性是一种从零到无穷大的距离。有没有办法将随机森林用于此类数据?
r - 在 R 中使用 Gram-Schmidt 正交化进行特征选择
R 中是否有任何包包含使用 Gram-Schmidt 正交化进行特征选择的算法?
machine-learning - 用于文本分类的词性 (POS) 标签特征选择
我有使用斯坦福词性标注器获得的词性标注句子。例如:
/DT岛/NN是/VBD很/RB美/JJ./。I/PRP爱/VBP吧/PRP./.
(xml格式也可以)
任何人都可以解释如何从这个 POS 标签句子中执行特征选择,并使用机器学习方法将它们转换为用于文本分类的特征向量。
statistics - 如何使用非常小的数据集对特征进行加权以获得更好的聚类?
我正在开发一个程序,该程序在特征空间(1000+ 维)中接收几个(<50)高维点,并通过递归使用标准 k 聚类对它们执行层次聚类。
我的问题是,在任何一次 k 聚类过程中,高维表示的不同部分都是多余的。我知道这个问题属于特征提取、选择或加权的范畴。
一般来说,在选择特定的特征提取/选择/加权算法时会考虑什么?具体来说,在我的情况下,什么算法是准备我的数据进行聚类的最佳方法?
document-classification - 您如何在二进制文档分类中找到最具辨别力的术语?
我想使用特征选择来查找文档中对二元分类任务最有用的术语。
我一直在环顾四周:
这提到了互信息和卡方检验指标
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html
MATLAB 也有许多函数:
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
MATLAB 中的特征选择 在
上述情况中,relieff 和 rankfeatures 看起来很有希望。
我不知道我的数据是否服从正态分布。关于哪种技术表现最好的任何想法?你有什么更新的方法可以推荐吗?重点是提高分类精度。
谢谢!
machine-learning - 遗传算法:特征选择算法的适应度函数
我有数据集 nxm,其中有 n 个观察值,每个观察值由 m 个属性的 m 个值组成。每个观察还观察到分配给它的结果。m 很大,对我的任务来说太大了。我试图找到仍然很好地代表整个数据集的 m 属性的最佳和最小子集,以便我可以仅使用这些属性来教授神经网络。
我想为此使用遗传算法。问题是适应度函数。它应该说明生成的模型(属性子集)仍然反映原始数据的程度。而且我不知道如何针对整个集合评估某些属性子集。当然,我可以使用神经网络(以后无论如何都会使用这个选定的数据)来检查子集的好坏——误差越小,子集就越好。但是,就我而言,这需要花费大量时间,而且我不想使用此解决方案。我正在寻找其他一些最好只对数据集进行操作的方法。
我的想法是:拥有子集 S(通过遗传算法找到),修剪数据集,使其仅包含子集 S 的值,并检查该数据 ser 中有多少观察值不再可区分(对于相同的属性具有相同的值),而具有不同的结果值。数字越大,它的子集越差。但这在我看来有点太费力了。
还有其他方法可以评估属性子集仍然代表整个数据集的程度吗?
r - R:带百分比因变量的多元回归的变量选择,严重共线性
我有一个包含 9 个连续自变量的数据集,我试图在这些变量之间进行选择,以使模型适合单个百分比(因)变量:Score。
不幸的是,我知道几个变量之间会有严重的共线性。
我尝试在 R 中使用 stepAIC 函数进行变量选择,但奇怪的是,该方法似乎对方程中列出变量的顺序很敏感......
这是我的 R 代码(b/c 是百分比数据,我使用 logit 转换作为分数):
出于某种原因,我发现等式开头列出的变量最终被 stepAIC 函数选择,并且可以通过列出来操纵结果,例如 Var9 首先(在波浪号之后)。
在这里拟合模型的更有效(且争议更少)的方法是什么?我实际上并没有死心塌地使用线性回归:我唯一想要的是能够理解 9 个变量中的哪一个真正驱动了 Score 变量的变化。最好是考虑到这 9 个变量中潜在的共线性的一些方法。
我知道这是一个棘手的问题,但我真的很感谢你花时间来看看它......
最好的,朱莉
machine-learning - Scikits Learn:线性核 SVM 中的特征权重
我正在处理文本分类问题(情感分析)。我想知道 scikit-learn 中是否有任何选项可以为特征添加“权重”(作为重要性的衡量标准)。我检查了文档,发现SVC 的属性“coefs”,定义如下:
但是,此属性似乎是只读的。
machine-learning - 机器学习——哪种方法最适合从各种重要的特征中预测离散的、连续的解决方案?
我需要想出一个公式,该公式最多需要 N 个输入并计算一个应该尽可能多地预测“正确”答案的数字。每个输入都是十进制值或整数。输出也是十进制值。
我有大量荒谬的数据(认为它是无限的)。在每种情况下,我都有所有输入的值和输出的正确值。
这些特征都是相互关联的(即,当一个高时另一个更可能低)并且它们与答案具有不同程度的相关性。
没有“完美”的公式,但应该有一个在许多具有统计意义的情况下都适用。如果我有一个“最佳”解决方案,它可能既是非线性的又是离散的。然而,这是一次性计算。
哪种机器学习解决方案最适合利用这些特征并创建一个准确的模型来表示如此复杂的、有点随机的数据?
编辑:做一些更多的研究似乎任何类型的线性回归都会失败。神经网络看起来是最好的选择,但我不知道他们是否可以预测这种在不同范围内具有不同公式的“离散”函数。
r - 如何使用 randomForest 包进行特征选择?
我正在使用 randomForest 来找出最重要的变量。我期待一些输出来定义模型的准确性,并根据变量的重要性对变量进行排名。但我现在有点困惑。我尝试了 randomForest,然后运行importance()
以提取变量的重要性。但是后来我看到了另一个命令rfcv
(用于特征选择的随机森林交叉验证),我想这应该是最适合这个目的的,但我对此的问题是:如何获取最重要变量的列表?运行后如何查看输出?使用哪个命令?
randomForest
另一件事:和有什么区别predict.randomForest
?
我对随机森林和 R 不是很熟悉,因此我们将不胜感激。
先感谢您!