我试图用 shape(20000,8000) 减少向量 X 的列数,但是减少了数据集的行数,使其成为新的数据集 X_5000 ,它的形状是 (5000 , 8000) 。请让我知道我在哪里犯了错误。当前我有 - X - 形状向量 (20000,8000) 必需 - X_5000 - 形状向量 (5000 , 8000) 我正在使用决策树模型并使用 feature_importance 来减少数量。的特征。
clf = DecisionTreeClassifier()
clf.fit(X, y)
class_prob_sorted = (-clf.feature_importances_).argsort()
top_5000_index= class_prob_sorted[:5000]
X_5000=X.tocsr()[top_5000_index]
实际上我得到了 - print(X_5000.shape) - (5000 , 8000)
预期 - print(X_5000.shape) - (20000 , 5000)