0

我已经使用 glmnet 在 R 中训练了一个弹性网络模型,并希望使用它来对新数据集进行预测。

但是我无法生成矩阵以用作 predict() 方法中的参数,因为我在新数据集中的一些因子变量(表示存在合并症的虚拟变量)只有一个级别(从未观察到合并症),这意味着我不能使用

model.matrix(响应 ~ ., new_data)

因为它给了我(预期的)

contrasts<-( , value = contr.funs *tmp*[1 + isOF[nn]]) 中的错误:对比只能应用于具有 2 个或更多级别的因子

我不知道如何解决这个问题。在这种情况下,R 中有没有一种方法可以构造一个合适的矩阵用于 predict(),还是需要在 R 之外准备矩阵?在任何一种情况下,我该怎么做呢?

这是一个重现我遇到的问题的玩具示例:

x1 <- rnorm(100)
x2 <- as.factor(rbinom(100, 1, 0.6))
x3 <- as.factor(rbinom(100, 1, 0.4))
y <- rbinom(100, 1, 0.2)

toy_data <- data.frame(x1, x2, x3, y)
colnames(toy_data) = c("Continuous", "FactorA", "FactorB", "Outcome")

mat1 <- model.matrix(Outcome ~ ., toy_data)[,-1]
y1 <- toy_data$Outcome

new_data <- toy_data
new_data$FactorB <- as.factor(0)

#summary(new_data) # Just to verify that FactorB now only contains one level

mat2 <- model.matrix(Outcome ~ ., new_data)[,-1]
4

1 回答 1

1

您可以设置levels数据集的 以匹配levels示例中完整数据集的 。levels即使变量中不存在该值,因子也可以存在值。

您可以使用以下levels参数执行此操作factor()

new_data$FactorB <- factor(0, levels = levels(toy_data$FactorB))

或者通过使用levels()带有赋值的函数:

levels(new_data$FactorB) <- levels(toy_data$FactorB)

model.matrix()一旦您拥有多个级别,使用任何一种方法都可以正常工作:

head( model.matrix(Outcome ~ ., new_data)[,-1] )
   Continuous FactorA1 FactorB1
1 -1.91632972        0        0
2  1.11411267        0        0
3 -1.21333837        1        0
4 -0.06311276        0        0
5  1.31599915        0        0
6  0.36374591        1        0
于 2018-08-21T16:59:01.910 回答