1

我正在尝试对knn模型进行逐步向前的特征选择。我正在使用FSelector包和forward.search()功能。

在特征消除之前,数据集是约 400k 行 x 约 100 列。

问题是表现最好的特征没有很多级别,因此有很多联系导致模型失败。

我的问题是这样的:

如果我知道性能最好的功能是什么,有没有办法用 2 个变量而不是一个变量来启动 forward.search()?

换句话说,如果我有 5 个变量。forward.search 将通过它们寻找最好的,例如:

depVar ~ var1
depVar ~ var2
depVar ~ var3
depVar ~ var4
depVar ~ var5

一旦确定了最好的(即var3)算法就会这样做:

depVar ~ var3 + var1
depVar ~ var3 + var2
depVar ~ var3 + var4
depVar ~ var3 + var5

等等。如果我知道表现最好的单变量,有没有办法跳到第二步?

任何建议,将不胜感激。

4

0 回答 0