5

我正在尝试从 sklearn 中的一组相当大的特征(~6,100,000)中获得特征排名。这是我到目前为止的代码:

train, test = train_test_split(rows, test_size=0.2, random_state=310)
train, val = train_test_split(train, test_size=0.25, random_state=310)
train_target = [i[-1] for i in train]

svc = SVC(verbose=5, random_state=310, kernel='linear')
svc.fit([i[1:-1] for i in train], train_target)

model=svc
rfe = RFE(model, verbose=5, step=1, n_features_to_select=1)
rfe.fit([i[1:-1] for i in train], train_target)
rank = rfe.ranking_

模型的每次训练大约需要 10 分钟。对于 6,100,000 个特征,这意味着数十年的计算时间。实际上115.9年。有没有更好的方法来做到这一点?我知道 rfe 需要最后一次消除的结果,但是有什么方法可以通过并行化或以不同的方式获得排名来加快速度?我可以使用数千个节点(感谢我工作的公司!)所以任何类型的并行性都会很棒!

我确实有线性 SVM 超平面的列表系数。订购这些很容易,但是正在为此完成的论文将由斯坦福数据科学教授进行审查,他强烈反对使用非排名算法进行排名......以及非斯坦福大学校友喜欢我。:P

我可以取一个更大的值step,但这会消除对所有特征进行实际排名的能力。相反,我会对 100,000 或 10,000 个功能的组进行排名,这并不是很有帮助。

编辑:nSV 可能很有用,所以我将它包含在下面:

obj = -163.983323, rho = -0.999801
nSV = 182, nBSV = 148
Total nSV = 182
4

1 回答 1

1

您应该使用不同的算法。关于如何加快特征选择的研究已经很多。RFE 的计算复杂性对于大量特征来说是令人望而却步的。您应该考虑对高维数据使用方法,例如FBED(前向-后向-早期丢弃)、OMP(正交匹配-追踪)、SES(统计等效签名)、LASSO等。

Fbed https://arxiv.org/abs/1705.10770

OMP https://arxiv.org/abs/2004.00281

SES https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2023-7

套索https://ieeexplore.ieee.org/document/7887916

于 2020-06-12T11:56:32.280 回答