我已经使用 glmnet 在 R 中训练了一个弹性网络模型,并希望使用它来对新数据集进行预测。
但是我无法生成矩阵以用作 predict() 方法中的参数,因为我在新数据集中的一些因子变量(表示存在合并症的虚拟变量)只有一个级别(从未观察到合并症),这意味着我不能使用
model.matrix(响应 ~ ., new_data)
因为它给了我(预期的)
contrasts<-
( , value = contr.funs*tmp*
[1 + isOF[nn]]) 中的错误:对比只能应用于具有 2 个或更多级别的因子
我不知道如何解决这个问题。在这种情况下,R 中有没有一种方法可以构造一个合适的矩阵用于 predict(),还是需要在 R 之外准备矩阵?在任何一种情况下,我该怎么做呢?
这是一个重现我遇到的问题的玩具示例:
x1 <- rnorm(100)
x2 <- as.factor(rbinom(100, 1, 0.6))
x3 <- as.factor(rbinom(100, 1, 0.4))
y <- rbinom(100, 1, 0.2)
toy_data <- data.frame(x1, x2, x3, y)
colnames(toy_data) = c("Continuous", "FactorA", "FactorB", "Outcome")
mat1 <- model.matrix(Outcome ~ ., toy_data)[,-1]
y1 <- toy_data$Outcome
new_data <- toy_data
new_data$FactorB <- as.factor(0)
#summary(new_data) # Just to verify that FactorB now only contains one level
mat2 <- model.matrix(Outcome ~ ., new_data)[,-1]