0

我在 R 中有以下代码段,我尝试在其中训练基于 SVM 的模型:

library(base)
library(caret)
library(iml)
library(tidyverse)

dataset <- read_csv("https://gist.githubusercontent.com/dmpe/bfe07a29c7fc1e3a70d0522956d8e4a9/raw/7ea71f7432302bb78e58348fede926142ade6992/pima-indians-diabetes.csv", col_names=FALSE)
X = dataset[, 1:8]
Y = as.factor(ifelse(dataset$X9 == 1, 'diabetes', 'nondiabetes'))

set.seed(88)

nfolds <- 3
cvIndex <- createFolds(Y, nfolds, returnTrain = T)

fit.control <- trainControl(method="cv",
                            index=cvIndex,
                            number=nfolds,
                            classProbs=TRUE,
                            savePredictions=TRUE,
                            verboseIter=TRUE,
                            summaryFunction=twoClassSummary,
                            allowParallel=FALSE)

model <- caret::train(X, Y,
                      method = "svmLinear",
                      trControl = fit.control,
                      preProcess=c("center","scale"),
                      tuneLength=10)

pred <- Predictor$new(model$finalMode, data=dataset)
pdp <- FeatureEffect$new(pred, "X1", method="pdp")

但是,预测器会抛出标题上显示的错误。任何想法为什么会发生这种情况以及如何克服它?

4

1 回答 1

0

你不需要选择model$finalModel(你在那一行有错字吗?你有$finalMode - 没有l)。您运行如下一行:

pred <- predict(model, newdata, type = "prob")

Caret 将自动使用得分最高的模型。如果您选择 type = "prob",则输出将为您提供糖尿病(第 1 列)或非糖尿病(第 2 列)的互补概率。如果您想要插入符号“模型”对象中的特定模型,那么我相信您可以将其挑选出来(从您之前的折叠问题中) - 但我从未做过,也不知道如何做。

对于您的部分依赖图,我使用 pdp 包,所以这样的东西应该可以工作:

library(pdp)
varname = 'X1' # Change this to whatever your first variable is called, or subsequently variables you are interested in.
partial(model, pred.var = varname, 
        train = X, chull=T, prob = T, progress = "text")

其中 X 是您训练模型的数据(我认为是 X 吗?)

于 2019-06-28T07:40:52.483 回答