r - 总结单列的使用条件

Question

样本数据：

df <- data.frame(HELP = c("Yes", "Yes", "Yes", "No", "Yes", "No"))

我做了：

cdata <- ddply(df, c("HELP"), summarise,
           Total = sum(df$HELP == 'No'),
           Probability = Total/nrow(df))

但对于“是”的值保持与“否”相同的值。我尝试使用“如果”条件，但没有奏效。

我想要做的是通过帮助来总结它的总和df.help == "No"和总和df.help == "Yes"，以及它们各自的概率。

最终结果应如下所示：

|    | Help | Total | Probability  |
|----|------|-------|--------------|
|  1 | Yes  | 4     | 0.666        |
|  2 | No   | 2     | 0.333        |

使用 ddply 或其他方式解决此问题的适当方法是什么？

问候

score 1 · Accepted Answer

我建议使用dplyr, 正如您标记的那样。这使您可以轻松地使用group_by和使用对数据进行分组，summarise并且mutate您可以添加新列以实现所需的结果。

> library(dplyr)
> df %>% group_by(HELP) %>% summarise(Total = n()) %>% mutate(Probability = Total / sum(Total))
# A tibble: 2 x 3
    HELP Total Probability
  <fctr> <int>       <dbl>
1     No     2   0.3333333
2    Yes     4   0.6666667

解释

%>%将左侧命令的输出转发到运算符右侧的命令。您可以将多个命令链接在一起，但是当它起作用时，它很快就会变得一团糟。

group_by(HELP)会将您的数据框划分为具有相同值的行HELP。它也可以占用几列。

summarise(Total = n())--n()是另一个dplyr函数，它设置为组中的行数。在这两个summarise和mutate新的列名中都提供了没有 '或"

mutate(Probability = Total / sum(Total))-- 简单计算，根据上一步刚刚计算的结果

r - 总结单列的使用条件

1 回答 1

解释

Related

Reference