我需要在训练示例上学习分类器并对测试示例进行分类。我的例子是长文本。我想使用一个特征集,其中第 i 个元素是第 i 个最常用的词,例如,第一个特征是最常用的词。
我的问题是,如果我使用字符串功能,那么我就不能使用我想要的分类器。如果我使用名义特征,我会将第一个特征作为训练示例中最常用的词。对于测试示例,第一个特征是我的测试示例中最常用的单词。所以这些特性是不一样的,我想用分类器的时候,weka说不匹配。
你有解决方案吗?
我希望能够使用每个文本中出现频率最高的 50 个单词的特征集,并且训练示例的 arff 不应受到测试示例的影响。此外,我希望能够使用多种分类器(如 smo、naive-bayes、j48 等)。
谢谢!