1

我有一个如下所示的数据集:

   UserID    Query     Asthma    Stroke    
   142       abc dr    0         0
   142       asthma    1         0
   142       stroke    0         1
   145       stroke    0         1
   145       pizza     0         0

有数十万个用户 ID,每个用户提交的查询数量不定。为了做进一步的分析,我需要为每个用户 ID 总结“哮喘”和“中风”。有什么建议吗?您能否推荐处理此类数据集的资源?

提前谢谢你......我对此很陌生。

4

1 回答 1

3

您可以为此使用ddplyplyr 包中的函数。

假设您的数据集是样本:

install.packages("plyr")
library(plyr)
ddply(sample,.(UserID), summarize,sumAsthma=sum(Asthma),sumStroke=sum(Stroke))   

注意:numcolwise()如果您有多个数字列,则可以使用。

ddply(sample,.(UserID),numcolwise(sum))
于 2013-07-01T21:01:58.463 回答