我有一个 10191x2 的数据框。我的预测变量是分类的,我的反应也是分类的。以下是该数据集的一些行:
df
Partner Customer
A Alpha
A Beta
B Beta
C Gamma
C Alpha
C Zeta
我正在尝试创建一个多项逻辑回归模型,该模型将预测客户购买特定合作伙伴的概率。所以我的方法如下:
举个例子,在这个数据集中有 1385 个合作伙伴和 53 个客户。
trainIndex <-createDataPartition(df$Customer, p=0.8,
list = FALSE,
times =1)
TRAINING <- df[trainIndex,]
TESTING <- df[-trainIndex,]
dummies <- dummyVars(Customer ~ ., data = TRAINING)
dummy<-data.frame(predict(dummies, newdata = TRAINING))
df2<-cbind(dummy,TRAINING$Customer)
df2$`TRAINING$Customer`<-as.factor(df2$`TRAINING$Customer`)
model<-train(`TRAINING$Customer` ~.,data = df2,
method = "multinom")
然后当我运行它时出现以下错误:
Error in na.fail.default(list(`TRAINING$Customer` = c(5L, 18L, 14L, : missing values in object
我检查了我的初始数据集,没有缺失值,所以我对为什么会发生这种情况感到困惑。
任何人都能够深入了解为什么会发生此错误以及如何将多项逻辑回归应用于具有所有分类变量的数据集?