7

我正在尝试创建自己的简单特征选择算法。我要使用的数据集在这里(非常有名的数据集)。有人可以给我一个关于如何做到这一点的指示吗?

我打算为文本分类编写一个特征排名算法。这是用于电影评论的情感分析,将它们分类为正面或负面。

所以我的问题是如何为文本数据集编写一个简单的特征选择。

4

4 回答 4

3

特征选择方法是一个很大的话题。您可以从以下开始:

  1. 卡方

  2. 相互信息

  3. 词频

等如果你有时间,请阅读这篇论文:文本分类中特征选择的比较研究,这将对你有很大帮助。

实际实现取决于您如何预处理数据。基本上它保持计数,无论是哈希表还是数据库。

于 2011-03-07T18:18:40.407 回答
2

当您构建集成时,随机功能效果很好。它被称为特征装袋。

于 2012-05-10T20:37:30.143 回答
0

这是一种选择:使用逐点互信息。您的特征将是标记,并且应该根据情绪标签来衡量信息。小心频繁使用的词(停用词),因为在这类任务中它们实际上可能很有用。

于 2011-03-07T17:59:15.527 回答
0

我目前使用这种方法:

计算每个类的数据的平均值和方差。一个好的候选特征应该有小的方差,并且平均值应该不同于其他类的平均值。

目前只有 < 50 个功能,我手动选择它们。对于这一过程的自动化,可以计算所有类之间平均值的方差,并为具有较大方差的那些赋予更高的优先级。然后,首先选择在一个类中具有较小差异的那些。

当然,这不会删除冗余功能。

于 2015-02-01T12:06:27.747 回答