我正在尝试创建自己的简单特征选择算法。我要使用的数据集在这里(非常有名的数据集)。有人可以给我一个关于如何做到这一点的指示吗?
我打算为文本分类编写一个特征排名算法。这是用于电影评论的情感分析,将它们分类为正面或负面。
所以我的问题是如何为文本数据集编写一个简单的特征选择。
我正在尝试创建自己的简单特征选择算法。我要使用的数据集在这里(非常有名的数据集)。有人可以给我一个关于如何做到这一点的指示吗?
我打算为文本分类编写一个特征排名算法。这是用于电影评论的情感分析,将它们分类为正面或负面。
所以我的问题是如何为文本数据集编写一个简单的特征选择。
特征选择方法是一个很大的话题。您可以从以下开始:
卡方
相互信息
词频
等如果你有时间,请阅读这篇论文:文本分类中特征选择的比较研究,这将对你有很大帮助。
实际实现取决于您如何预处理数据。基本上它保持计数,无论是哈希表还是数据库。
当您构建集成时,随机功能效果很好。它被称为特征装袋。
这是一种选择:使用逐点互信息。您的特征将是标记,并且应该根据情绪标签来衡量信息。小心频繁使用的词(停用词),因为在这类任务中它们实际上可能很有用。
我目前使用这种方法:
计算每个类的数据的平均值和方差。一个好的候选特征应该有小的方差,并且平均值应该不同于其他类的平均值。
目前只有 < 50 个功能,我手动选择它们。对于这一过程的自动化,可以计算所有类之间平均值的方差,并为具有较大方差的那些赋予更高的优先级。然后,首先选择在一个类中具有较小差异的那些。
当然,这不会删除冗余功能。