algorithm - 最简单的特征选择算法

Question

我正在尝试创建自己的简单特征选择算法。我要使用的数据集在这里（非常有名的数据集）。有人可以给我一个关于如何做到这一点的指示吗？

我打算为文本分类编写一个特征排名算法。这是用于电影评论的情感分析，将它们分类为正面或负面。

所以我的问题是如何为文本数据集编写一个简单的特征选择。

score 3 · Accepted Answer

特征选择方法是一个很大的话题。您可以从以下开始：

等如果你有时间，请阅读这篇论文：文本分类中特征选择的比较研究，这将对你有很大帮助。

实际实现取决于您如何预处理数据。基本上它保持计数，无论是哈希表还是数据库。

score 2 · Accepted Answer

2

当您构建集成时，随机功能效果很好。它被称为特征装袋。

于 2012-05-10T20:37:30.143 回答

score 0 · Accepted Answer

这是一种选择：使用逐点互信息。您的特征将是标记，并且应该根据情绪标签来衡量信息。小心频繁使用的词（停用词），因为在这类任务中它们实际上可能很有用。

score 0 · Accepted Answer

我目前使用这种方法：

计算每个类的数据的平均值和方差。一个好的候选特征应该有小的方差，并且平均值应该不同于其他类的平均值。

目前只有 < 50 个功能，我手动选择它们。对于这一过程的自动化，可以计算所有类之间平均值的方差，并为具有较大方差的那些赋予更高的优先级。然后，首先选择在一个类中具有较小差异的那些。

当然，这不会删除冗余功能。

4 回答 4