python - xgboost 分类器中的测试集错误不会减少

Question

我在类标签为 0、1 和 2 的不平衡数据集上使用 xgboost 分类器，分别由 74%、20% 和 6% 的标签组成。在对训练集进行随机过采样并缩放训练集和测试集之后，我构建了 xgbclassifier：

model = xgb.XGBClassifier(n_estimators=15, max_depth=15, learning_rate=0.1, objective='multi:softmax',
                          num_class=3, subsample=0.9, use_label_encoder=False, eval_metric='mlogloss')
#cross validation
stratk = StratifiedKFold(n_splits=20)
results = cross_val_score(model, x_train, y_train, cv=stratk, scoring='balanced_accuracy')

model.fit(x_train,y_train, eval_metric='mlogloss', eval_set=[(x_train, y_train),(x_test, y_test)], verbose=False, early_stopping_rounds=10)

我在训练中的平衡精度非常高，但在测试集中的平衡精度很低：

mat_train = confusion_matrix(y_train, y_pred_train)
train_acc_class = mat_train.diagonal()/mat_train.sum(axis=1)
print('train accuracy by class', train_acc_class)
train accuracy by class [0.94514343 0.98288878 1.        ]

y_pred = model.predict(x_test)
test_acc = balanced_accuracy_score(y_test, y_pred)
print('balanced test accuracy', test_acc)
test accuracy by class [0.62679426 0.65697674 0.03448276]

我知道我的模型过度拟合。但是，当我减小 n_estimators 和 max_depth 时，它只会降低训练精度，而不会提高测试精度。此外，即使在我对两个少数类进行过采样后，当类标签 = 2 时，测试准确率仍然很低。我应该怎么做才能提高测试准确性，尤其是在第 2 类中？

python - xgboost 分类器中的测试集错误不会减少

0 回答 0

Related

Reference