7

我正在使用 glmnet 包从 mtcars 数据集中获取以下图表(mpg 对其他变量的回归):

library(glmnet)
fit = glmnet(as.matrix(mtcars[-1]), mtcars[,1])
plot(fit, xvar='lambda')

在此处输入图像描述

如何在每条曲线的开头或在其最大 y 点(最大远离 x 轴)向每条曲线添加变量名称?我试过了,我可以像往常一样添加图例,但不能在每条曲线上或其开始处添加标签。谢谢你的帮助。

4

3 回答 3

7

另一种方法是 plotmo包中的plot_glmnet函数 。它会自动定位变量名并有一些其他的花里胡哨。例如下面的代码

library(glmnet)
mod <- glmnet(as.matrix(mtcars[-1]), mtcars[,1])
library(plotmo) # for plot_glmnet
plot_glmnet(mod)

阴谋

变量名称被展开以防止过度绘制,但我们仍然可以确定哪条曲线与哪个变量相关联。更多的例子可以在第 6 章的 plotres vignette中找到, 它包含在 plotmo 包中。

于 2016-11-30T02:24:28.537 回答
3

由于标签是硬编码的,因此编写快速函数可能更容易。这只是一个快速的镜头,因此可以更改为更彻底。我还要注意,当使用套索时,通常会有很多变量,所以标签会有很多重叠(如你的小例子所示)

lbs_fun <- function(fit, ...) {
        L <- length(fit$lambda)
        x <- log(fit$lambda[L])
        y <- fit$beta[, L]
        labs <- names(y)
        text(x, y, labels=labs, ...)
}

# plot
plot(fit, xvar="lambda")

# label
lbs_fun(fit)

在此处输入图像描述

于 2015-05-31T19:14:45.627 回答
0

这是对最佳答案的修改,使用线段而不是直接覆盖曲线的文本标签。当有很多变量并且您只想打印绝对系数值大于零的变量时,这尤其有用:

#note: the argument 'lra' is a cv.glmnet object


lbs_fun <- function(lra, ...) {

  fit <- lra$glmnet.fit

  L=which(fit$lambda==lra$lambda.min)

  ystart <- sort(fit$beta[abs(fit$beta[,L])>0,L])
  labs <- names(ystart)
  r <- range(fit$beta[,100]) # max gap between biggest and smallest coefs at smallest lambda i.e., 100th lambda
  yfin <- seq(r[1],r[2],length=length(ystart))

  xstart<- log(lra$lambda.min)
  xfin <- xstart+1


  text(xfin+0.3,yfin,labels=labs,...)
  segments(xstart,ystart,xfin,yfin)


}

plot(lra$glmnet.fit,label=F, xvar="lambda", xlim=c(-5.2,0), lwd=2) #xlim, lwd is optional
于 2017-04-10T15:18:12.597 回答