r - 如何为数据帧的每个子集运行 lm，然后聚合结果？

Question

我有一个大数据框 df，列名为：

age, income, country

我想做的其实很简单，做

fitFunc<-function(thisCountry){
    subframe<-df[which(country==thisCountry)];
    fit<-lm(income~0+age, data=subframe);
    return(coef(fit));
}

对于每个单独的国家。然后将结果聚合到一个新的数据框中，如下所示：

    countryname,  coeffname
1      USA         1.2
2      GB          1.0
3      France      1.1

我试着做：

do.call("rbind", lapply(allRics[1:5], fitit))

但我不知道下一步该做什么。

任何人都可以帮忙吗？

谢谢！

score 2 · Accepted Answer

这对你有用吗？

    set.seed(1)
    df<-data.frame(income=rnorm(100,100,20),age=rnorm(100,40,10),country=factor(sample(1:3,100,replace=T),levels=1:3,labels=c("us","gb","france")))

    out<-lapply(levels(df$country) , function(z) {
        data.frame(country=z, age= coef(lm(income~0+age, data=df[df$country==z,])),row.names=NULL)
    })
do.call(rbind ,out)

score 2 · Accepted Answer

使用@user20650 的示例数据，这似乎产生了相同的结果：

require(data.table)
dt <- data.table(df)
dt[,list(age=lm(income~0+age)$coef),by=country]

#    country      age
# 1:      gb 2.428830
# 2:      us 2.540879
# 3:  france 2.369560

您需要先安装该data.table软件包。

score 1 · Accepted Answer

请注意，该plyr包是为此类任务创建的。它对数据的子集执行一个函数，并以指定的形式返回结果。使用ddply我们输入一个数据框并获取一个带有结果的数据框。请参阅plyr示例会话和帮助文件以了解有关此内容的更多信息。熟悉这个包是非常值得的！请参阅http://plyr.had.co.nz/作为开始。

library(plyr)
age <- runif(1000, 18, 80)
income <- 2000 + age*100 + rnorm(1000,0, 2000)
country <- factor(sample(LETTERS[1:10], 1000, replace = T))
dat <- data.frame(age, income, country)

get.coef <- function(dat) lm(income ~ 0 + age, dat)$coefficients

ddply(dat, .(country), get.coef)

r - 如何为数据帧的每个子集运行 lm，然后聚合结果？

3 回答 3

Related

Reference