0

我需要在训练示例上学习分类器并对测试示例进行分类。我的例子是长文本。我想使用一个特征集,其中第 i 个元素是第 i 个最常用的词,例如,第一个特征是最常用的词。

我的问题是,如果我使用字符串功能,那么我就不能使用我想要的分类器。如果我使用名义特征,我会将第一个特征作为训练示例中最常用的词。对于测试示例,第一个特征是我的测试示例中最常用的单词。所以这些特性是不一样的,我想用分类器的时候,weka说不匹配。

你有解决方案吗?

我希望能够使用每个文本中出现频率最高的 50 个单词的特征集,并且训练示例的 arff 不应受到测试示例的影响。此外,我希望能够使用多种分类器(如 smo、naive-bayes、j48 等)。

谢谢!

4

1 回答 1

0

对于任何预处理任务,您都应该使用“FilteredClassifier”。因此,实际的预处理操作仅基于训练集确定,然后应用于测试数据。

例如:如果您以这种方式进行离散化,实际的 bin 将仅取决于训练数据中的属性值。然而,使用这些箱的离散化将应用于测试数据。

于 2013-08-20T18:35:58.113 回答