我正在使用 Python 的 Scikit 模块来实现随机梯度提升。我的数据集有 2700 个实例和 1700 个特征 (x),并且包含二进制数据。我的输出向量是“y”,包含 0 或 1(二进制分类)。我的代码是,
gb = GradientBoostingClassifier(n_estimators=1000,learn_rate=1,subsample=0.5)
gb.fit(x,y)
print gb.score(x,y)
一旦我运行它,并得到 1.0 (100%) 的准确度,有时我得到大约 0.46 (46%) 的准确度。知道为什么它的性能存在如此巨大的差距吗?