我有一个训练数据集和多个测试集(我在聚类框架中对实例进行分类,因此测试集的实例是动态计算的)。
实例属性有不同的尺度(第一个从 0 到 1,第二个从 0 到 100)。
我的分类器(逻辑回归和 SMO)如何处理他们没有同时拥有整个测试集的事实?
换句话说,如果他们不知道测试集中的最大值是多少,他们如何处理不同的尺度属性?
谢谢
我有一个训练数据集和多个测试集(我在聚类框架中对实例进行分类,因此测试集的实例是动态计算的)。
实例属性有不同的尺度(第一个从 0 到 1,第二个从 0 到 100)。
我的分类器(逻辑回归和 SMO)如何处理他们没有同时拥有整个测试集的事实?
换句话说,如果他们不知道测试集中的最大值是多少,他们如何处理不同的尺度属性?
谢谢
根据Weka Javadocs,SMO“默认情况下对所有属性进行归一化。(请注意,输出中的系数基于归一化/标准化数据,而不是原始数据。)”即,如果您的训练集,您将得到错误的归一化不涵盖每个属性的全部范围。这有多糟糕取决于您的数据。
我建议您尝试使用和不使用归一化进行训练(用于setFeatureSpaceNormalization(false)
将其关闭),看看哪种效果最好。