1

我无法理解使用 scikit 的这两个步骤是否相似:

1) RandomForestClassifier 与 compute_importance=True ,并手动选择返回的前 10 个特征以进一步创建 10 个特征的新训练集并训练和进一步预测。

2) RandomforestClassifier with max_feature=10 compute_importance=True 并进一步使用 rf.fit_transform(train,target) 和进一步 rf.fit(train,target)

4

1 回答 1

0

max_features=10意味着从整个集合中选择一个新的 10 个特征的随机子集作为分割的候选。换句话说,每次都会考虑不同的 10 个特征。所有原始特征最终可能仍会在同一棵树的某个地方使用,因此也会在整个森林中使用。选择 10 个最重要的特征并重新训练意味着到处都使用相同的 10 个特征,这通常不是一个好主意。

于 2014-05-12T02:43:55.047 回答