0

我正在做一个文档分类项目。我正在使用 tf-idf 和质心算法。但我需要一本字典,用于使用该算法。我曾尝试获取信息以获取字典,但我认为它还不够满意。你有什么比信息增益更好的特征选择算法的建议吗?

4

2 回答 2

2

以我的经验,没有最好的特征选择方法。适用于一个数据集的算法可能对其他数据集表现不佳,因此这主要是一个实验性问题。尝试一些,看看哪些适合您的问题设置。George Forman已经发表了几篇关于这个主题的文章,有空的时候值得一读。

于 2013-01-03T09:53:28.503 回答
1

还值得指出的是,在许多情况下,特征选择不是必需的。只需使用所有单词,以及对大型特征空间具有鲁棒性的分类器(例如线性 SVM/L1 正则化逻辑回归)。要解决的问题少了一个,而且它是您需要明确证明不使用的基线。

于 2013-01-04T16:39:03.943 回答