我正在尝试使用 weka 对文本进行分类。我要做的是:
- 我在包含所有数据的大 ARFF 文件上创建:
all_of_it.arff
. - 我将这些数据分成训练和测试:
train.arff
和test.arff
- 我对训练集进行特征选择并输出一个新的训练文件:
train_fs.arff
- 我构建了一个只包含那些选定特征的分类器。
而问题是......
我不太清楚如何将测试集标准化为仅使用我从训练集中选择的特征。像创建新的测试文件这样的test.arff
东西train_fs.arff
*我尝试使用
java -cp weka.jar weka.filters.unsupervised.attribute.Standardize -b -i train_fs.arff -o train2.arff -r test.arff -s test2.arff
但我得到了臭名昭著的Src and Dest differ in # of attributes
。
有什么方法可以根据 arff 文件(即我的新训练数据,具有很少的特征)对集合进行标准化/标准化,我不知道如何使用 Standardize 或 StringToWordVector 过滤器来做到这一点。