1

我想使用特征选择来查找文档中对二元分类任务最有用的术语。

我一直在环顾四周:
这提到了互信息和卡方检验指标
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html

MATLAB 也有许多函数:
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
MATLAB 中的特征选择 在
上述情况中,relieff 和 rankfeatures 看起来很有希望。

我不知道我的数据是否服从正态分布。关于哪种技术表现最好的任何想法?你有什么更新的方法可以推荐吗?重点是提高分类精度。

谢谢!

4

1 回答 1

1

由于答案在很大程度上取决于您的数据的性质,因此我建议您尝试几个选项,可能使用保留集进行验证。最简单的方法可能是使用WekaRapidMiner进行实验。从他们提供的众多选项中进行选择,您可能会熟悉其他几种方法。

话虽如此,我发现 Mutual Information/Infogain 在很多问题上都很有用。

于 2011-11-23T07:14:59.613 回答