我想使用特征选择来查找文档中对二元分类任务最有用的术语。
我一直在环顾四周:
这提到了互信息和卡方检验指标
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html
MATLAB 也有许多函数:
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
MATLAB 中的特征选择 在
上述情况中,relieff 和 rankfeatures 看起来很有希望。
我不知道我的数据是否服从正态分布。关于哪种技术表现最好的任何想法?你有什么更新的方法可以推荐吗?重点是提高分类精度。
谢谢!