1

列名中包含无效字符的数据框导致 rlm() 出错。

深入研究一下,在 rlm() 中,该变量似乎xvars包含公式的解释变量的名称,但它在有问题的名称周围加上了反引号。然后当 xvars 用作数据框的索引时,即mf[xvars]会导致以下错误:

Error in `[.data.frame`(mf, xvars) : undefined columns selected

这是预期的行为吗?(我意识到关键字词组无效字符)。奇怪的是,在同一模型和数据帧上调用 lm() 不会导致任何问题。

# SAMPLE DATA
mydf <- data.frame(matrix(rnorm(36),ncol=6))
colnames(mydf) <- c("y", "x1", "x2", "x1^2", "x2^2", "x1:x2")

rlm(y~., data=mydf)  # Error

lm(y~., data=mydf)   # No Problem

# Clean up column names
colnames(mydf) <- make.names(colnames(mydf))
rlm(y~., data=mydf) # No Problem 

看一下MASS:::rlm.formula,似乎错误是
mf[xvars]以下几行引起的:

xlev <- if (length(xvars) > 0L) {
    xlev <- lapply(mf[xvars], levels)
    xlev[!sapply(xlev, is.null)]
}

有什么想法为什么要添加反引号但随后会导致错误?


附加信息

我复制了 rlm() 函数,添加了dput(mf)&dput(xvars)并得到了以下值。请注意,xvars 的值与上面指定的名称不同(即添加了反引号)。此外,mf 的名称与上面给出的名称相同。

# dput yielded
mf <- structure(list(y = c(-0.242914027018629, 0.724255425682537, -0.0578467214604185, -0.274193999595702, -0.38985000750839, 0.406046200943395), x1 = c(1.53071709960635, -1.87493297716611, 1.0936519723035, -0.977011182431237, -0.510890461021046, 1.20136627562427), x2 = c(-0.801995963036553, 1.30590232081605, 0.635922235436178, -1.86824341731708, -2.76797814532917, -0.497992681627495), `x1^2` = c(0.914146279518207, 0.103458073891876, -1.29818230391818, -0.629048606358592, 1.71534374557621, 0.922690967521984), `x2^2` = c(-0.0879726513660469, 1.05299413769867, 1.01955640371072, 0.546413685721721, 0.947757793667223, -0.0998700630220064), `x1:x2` = c(-0.757490494166813, 1.31307393014016, 1.90233916482184, 0.68844011701049, -1.28717997826724, -0.581800325341162)), .Names = c("y", "x1", "x2", "x1^2", "x2^2", "x1:x2"), terms = y ~     x1 + x2 + `x1^2` + `x2^2` + `x1:x2`, row.names = c(NA, 6L), class = "data.frame")
xvars <- c("x1", "x2", "`x1^2`", "`x2^2`", "`x1:x2`")

mf[xvars]  
# Error in `[.data.frame`(mf, xvars) : undefined columns selected


# Removing the backticks from xvars eliminates the error.
xvars <- sapply(xvars, function(x) gsub("`", "", x))
mf[xvars2]  # No Error
4

1 回答 1

3

您的问题归结为您使用的是非语法变量名称。

这些应该谨慎使用,不要期望包作者能够预测可能出现的任何问题。

从帮助中引用formula

变量名可以like this在公式中用反引号引用,但不能保证所有使用公式的代码都接受这种非语法名称。

如何xvars创建的问题rlm.formula

xvars <- as.character(attr(mt, "variables"))[-1L]

然后稍后使用

xlev <- if (length(xvars) > 0L) {
        xlev <- lapply(mf[xvars], levels)
        xlev[!sapply(xlev, is.null)]
    }

正如你所展示的,这不起作用

这将为非语法名称创建带引号的反引号变量。如果它们已经被反引号,那么他们将创建双反引号名称

即,如果列名是"x1^2",则其中的元素xvar变为"`x1^2`"

[.data.frame例如,这失败了

x <- data.frame(`a` = 1)
> x[,'`a`']

Error in `[.data.frame`(x, , "`a`") : undefined columns selected

因为列名'a'不是`a`

如果你反引号列名

即,如果列名是"`x1^2`",则其中的元素xvar变为"``x1^2``"

这又不是您的 data.frame 中的列

起作用的原因lm是它没有尝试定义和使用xvars,而是直接model.matrix定义设计矩阵x以传递给lm.fit

如果你想拟合模型,y ~ x1 + x2 + x1:x2 +x1^2 + y1^2那么你可以使用

rlm(y ~ x1*x2 + I(x1^2) + I(x2^2)

在这种情况下,您只需要 data.frame 中的三列(或评估环境中的对象yx1x2. asI()函数允许对变量执行算术运算,asI被解析为符号 terms.formula

于 2012-11-11T23:54:38.693 回答