我正在尝试对knn
模型进行逐步向前的特征选择。我正在使用FSelector
包和forward.search()
功能。
在特征消除之前,数据集是约 400k 行 x 约 100 列。
问题是表现最好的特征没有很多级别,因此有很多联系导致模型失败。
我的问题是这样的:
如果我知道性能最好的功能是什么,有没有办法用 2 个变量而不是一个变量来启动 forward.search()?
换句话说,如果我有 5 个变量。forward.search 将通过它们寻找最好的,例如:
depVar ~ var1
depVar ~ var2
depVar ~ var3
depVar ~ var4
depVar ~ var5
一旦确定了最好的(即var3
)算法就会这样做:
depVar ~ var3 + var1
depVar ~ var3 + var2
depVar ~ var3 + var4
depVar ~ var3 + var5
等等。如果我知道表现最好的单变量,有没有办法跳到第二步?
任何建议,将不胜感激。