3

我对子集()函数有疑问。如何通过观察次数对我的数据框的一个因子进行子集化?

   NAME      CLASS         COLOR   VALUE      
   antonio       B          YELLOW       5
   antonio       B          BLUE       8
   antonio       B          BLUE       7 
   antonio       B          BLUE      12 
   luca          C          YELLOW    99
   luca          B          YELLOW    87
   luca          B          YELLOW    98
   giovanni      A          BLUE      48

我想获得三个因素“名称”、“类别”和“颜色”至少比较三次的数据,以便获得价值的平均值。在这种情况下,我将获得:

   NAME      CLASS         COLOR   VALUE      
   antonio       B          BLUE       mean

因为安东尼奥是唯一一个对每个因素都有三个观察值的人

太感谢了

尼克

4

1 回答 1

10

您可以table按如下方式使用该功能:

subset(df, table(FACTOR)[FACTOR] >= 3)
#    FACTOR VALUE
# 1 ANTONIO     5
# 2 ANTONIO     8
# 3 ANTONIO     7

为了帮助您理解,请查看这些返回的内容:

table(df$FACTOR)
table(df$FACTOR)[df$FACTOR]
table(df$FACTOR)[df$FACTOR] >= 3

您还可以使用该ave函数来计算观察次数:

subset(df, ave(VALUE, FACTOR, FUN = length) >= 3)

如果您有多个因素,例如您在评论和更新的问题中提出的问题,那么最后一种方法可能会更灵活一些。你可以做:

subset(df, ave(VALUE, NAME, CLASS, COLOR, FUN = length) >= 3)
于 2012-12-08T12:35:33.907 回答