我正在尝试在不平衡的数据集(〜1:4)上运行随机森林分类器。
我正在使用 imblearn 的方法如下:
from imblearn.ensemble import BalancedRandomForestClassifier
rf=BalancedRandomForestClassifier(n_estimators=1000,random_state=42,class_weight='balanced',sampling_strategy='not minority')
rf.fit(train_features,train_labels)
predictions=rf.predict(test_features)
RepeatedStratifiedKFold
训练集和测试集的分割是在使用from scikit learn的交叉验证方法中执行的。
但是,我想知道测试集是否也需要平衡以获得合理的准确度分数(敏感性、特异性等)。我希望你能帮我解决这个问题。
非常感谢!