weka - Weka：在我对训练集进行特征选择后，Src 和 Dest 的属性数不同

Question

我正在尝试使用 weka 对文本进行分类。我要做的是：

而问题是......

我不太清楚如何将测试集标准化为仅使用我从训练集中选择的特征。像创建新的测试文件这样的test.arff东西train_fs.arff

*我尝试使用

java -cp weka.jar weka.filters.unsupervised.attribute.Standardize -b -i train_fs.arff -o train2.arff -r test.arff -s test2.arff

但我得到了臭名昭著的Src and Dest differ in # of attributes。

有什么方法可以根据 arff 文件（即我的新训练数据，具有很少的特征）对集合进行标准化/标准化，我不知道如何使用 Standardize 或 StringToWordVector 过滤器来做到这一点。

score 1 · Accepted Answer

批量过滤是您的问题的一种解决方案。

优点：

缺点：

您可以在此处阅读有关批量过滤的更多信息。

score 1 · Accepted Answer

您可能还想查看InputMappedClassifier。它是一个包装分类器，用于处理不兼容的训练和测试数据。

2 回答 2