我认为一个自变量是如此重要和首要,以至于我只想使用它来构建模型并使用其余的其他变量来构建其他模型。
比如在 kaggle.com 上的泰坦尼克号比赛中,sex
我把它作为一个主要变量,我用它来构建一个 SVM 模型。然后我使用其他变量(例如fare
, alone
, )age
来构建一个 cforest 模型。
但要预测survival
,我需要他们两个。那么我该怎么做呢?
lm()
功能似乎不适用于S4 class
.
我的代码在这里:
## Modeling Begin
predictions <- NULL
NT <- 1000
## formula3 for 'gender' model using SVM
formula3 <- as.factor(survived) ~ pclass + sex
## formula1 and formula2 both for rest features without gender model
formula1.cf <- as.formula(as.factor(survived) ~ pclass + alone + fare + age)
formula2.cf <- as.formula( survived ~ pclass + alone + fare + age)
## Train SVM(only for gender model) and Predict
library(e1071)
formula3 <- as.factor(survived) ~ pclass + sex
tune <- tune.svm(formula3, data=clean.train, gamma=10^(-4:-1), cost=10^(1:4))
# summary(tune)
tune$best.parameters
model.svm <- svm(formula3,
data=clean.train,
type="C-classification",
kernel="radial",
probability=T,
gamma=tune$best.parameters$gamma,
cost=tune$best.parameters$cost)
## Train cForest
model.cforest <- cforest(formula2.cf, data=clean.train,
control=cforest_unbiased(ntree=NT, trace=F))
谢谢你!