问题标签 [feature-selection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
decision-tree - 要训练决策树模型,处理向量表示的属性的更好方法是什么?
在大多数讨论决策树的指令中,属性由单个值表示,然后将这些值连接为特征向量。这是有道理的,因为通常属性是相互独立的。
然而,在实践中,某些属性只能表示为矢量或矩阵,例如二维地图中的 GPS 坐标 (x,y)。如果 x 和 y 是相关的(例如非线性相关),那么简单地将它们与其他属性连接起来并不是一个好的解决方案。我想知道是否有一些更好的技术来处理它们?
谢谢
classification - 使用 Bags-of-features 方法时 PASCAL VOC2007 数据的性能不佳
我在特征框架包中使用了基本组件:SIFT + Kmeans + VQ + SVM 我得到的平均 ap 仅为 ~15%,一些使用类似基本组件的文献声称平均 ap 为 ~45% 并达到了 75%在使用额外的编码和空间池之后......这是为什么呢?
多谢你们!
machine-learning - 什么是特征选择的前馈包装方法?
对于学校项目,我需要从 UCI 存储库中选择一个数据集,并在使用“前馈包装器”特征选择对其进行处理后使用 KNN 对数据进行分类。谷歌搜索“前馈包装器”一无所获......有人可以向我解释它是什么吗?更好的是,向我描述完成这项任务的步骤可能吗?“数据类型”、“属性类型”、“属性个数”应该选择什么样的数据?
最好的,法提赫
feature-selection - 互信息和卡方关系
我使用以下代码来计算情绪分析中特征选择的互信息和卡方值。
其中 N11,N01,N10 和 N00 是我的数据集中两个特征的观察频率。
注意:我正在尝试计算 2 个特征之间的互信息和卡方值,而不是特定特征和类之间的互信息。我这样做是为了知道这两个功能是否以任何方式相关。
我使用的卡方公式是:
其中 E00,E01,E10,E11 是预期频率。
根据互信息的定义,低值应该意味着一个特征没有给我关于另一个的信息,根据卡方的定义,卡方的低值意味着两个特征必须是独立的。
但是对于某些两个特征,我得到了 0.00416 的互信息分数和 4373.9 的卡方值。这对我来说没有意义,因为互信息分数表明这些特征并不密切相关,但卡方值似乎足够高,表明它们也不是独立的。我想我的解释有问题
我为观察到的频率得到的值是
nlp - 文档分类的最佳特征选择算法
我正在做一个文档分类项目。我正在使用 tf-idf 和质心算法。但我需要一本字典,用于使用该算法。我曾尝试获取信息以获取字典,但我认为它还不够满意。你有什么比信息增益更好的特征选择算法的建议吗?
machine-learning - 如何评估特征选择方法?
你好,
如何为给定的数据集(文本数据)选择最适合的特征选择方法?
例如,在 Weka 中,有几种属性选择方法(CfsSubsetEval、ChiSquaredAttributeEval、...等)和几种搜索方法(bestfirst、greedy、ranker ...等)。
我的问题:我怎么知道哪种属性选择方法和搜索方法最适合给定数据集?!
我的猜测:我应该在应用特征选择过滤器后使用交叉验证来测试数据集吗?例如,这意味着如果我有 10 种属性选择方法和 10 种搜索方法,我将需要执行 100 次交叉验证测试,然后选择准确度最高的配置!!!!!!!!!我在这里假设我只针对一个分类器进行测试。那么如果我有 2 个分类器(SMO 和 J48),我需要执行 200 次交叉验证测试吗?!
如果我误解了什么,请纠正我...
machine-learning - 选择功能以将 Twitter 问题识别为“有用”
我通过使用正则表达式从 Twitter 的流中收集一堆问题,以挑选任何包含以问题类型开头的文本的推文:谁、什么、何时、何地等,并以问号结尾。
因此,我最终在我的数据库中收到了几个无用的问题,例如:“谁在乎?”、“这是什么?” 等等,还有一些有用的,比如:“篮球比赛多久打一次?”、“北极熊有多重?” ETC
但是,我只对有用的问题感兴趣。
我有大约 3000 个问题,其中约 2000 个没有用,其中约 1000 个有用,我手动标记了它们。我正在尝试使用朴素贝叶斯分类器(NLTK 附带)来尝试自动对问题进行分类,这样我就不必手动挑选有用的问题。
首先,我尝试选择问题的前三个单词作为特征,但这并没有太大帮助。在 100 个问题中,分类器预测只有大约 10%-15% 的问题对有用的问题是正确的。它也未能从它预测无用的问题中挑选出有用的问题。
我尝试了其他功能,例如:包括所有单词,包括问题的长度,但结果没有显着变化。
关于我应该如何选择功能或继续进行的任何建议?
谢谢。
php - mysql是否有类似自动更新的东西
数据库表架构。
现在我想每次在 mysql 中自动更新数据时更新计数,而无需访问数据库。
我的意思是我知道我可以选择该行并获取旧值,然后将其增加一个,但我担心的是 mysql 是否有任何方法可以处理这些事情。
我没有尝试任何代码。我只是想从那里的专家那里知道他们是否对此有所了解。由于我在截止日期前运行,我不想使用冗长的方法,我认为如果 mysql 现在已经有一些可以帮助我的东西会很酷。
谢谢。
machine-learning - 对 TF 和 TF*IDF 向量执行 Chi-2 特征选择
我正在试验一些文本分类任务的 Chi-2 特征选择。我知道 Chi-2 测试检查依赖关系 B/T 两个分类变量,所以如果我们对具有二进制 BOW 向量表示的二进制文本分类问题执行 Chi-2 特征选择,每个 (feature,class) 上的每个 Chi-2 测试对将是一个非常简单的 Chi-2 测试,具有 1 个自由度。
引用文档:http ://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2 ,
该分数可用于从 X 中选择具有最高 χ²(卡方)统计值的 n_features 特征,其中必须包含相对于类的布尔值或频率(例如,文档分类中的术语计数)。
在我看来,我们还可以在 DF(字数)向量表示上执行 Chi-2 特征选择。我的第一个问题是:sklearn 如何将整数值特征离散化为分类?
我的第二个问题与第一个类似。从这里的演示代码:http: //scikit-learn.sourceforge.net/dev/auto_examples/document_classification_20newsgroups.html
在我看来,我们也可以在 TF*IDF 向量表示上执行 Chi-2 特征选择。sklearn 如何对实值特征进行 Chi-2 特征选择?
提前感谢您的友好建议!