machine-learning - WEKA：属性量表问题

Question

我有一个训练数据集和多个测试集（我在聚类框架中对实例进行分类，因此测试集的实例是动态计算的）。

实例属性有不同的尺度（第一个从 0 到 1，第二个从 0 到 100）。

我的分类器（逻辑回归和 SMO）如何处理他们没有同时拥有整个测试集的事实？

换句话说，如果他们不知道测试集中的最大值是多少，他们如何处理不同的尺度属性？

谢谢

score 1 · Accepted Answer

根据Weka Javadocs，SMO“默认情况下对所有属性进行归一化。（请注意，输出中的系数基于归一化/标准化数据，而不是原始数据。）”即，如果您的训练集，您将得到错误的归一化不涵盖每个属性的全部范围。这有多糟糕取决于您的数据。

我建议您尝试使用和不使用归一化进行训练（用于setFeatureSpaceNormalization(false)将其关闭），看看哪种效果最好。

1 回答 1