r - 折叠一列中因子变量的水平，同时对另一列中的计数求和

Question

我最初有一个不同的数据（4 行，158 列），我用reshape::melt()它来创建一个长数据集（624 行 x 3 列）。

但是，现在我有一个这样的数据集：

   demo <- data.frame(region = as.factor(c("North", "South", "East", "West")),
                       criteria = as.factor(c("Writing_1_a", "Writing_2_a", "Writing_3_a", "Writing_4_a", 
                                              "Writing_1_b", "Writing_2_b", "Writing_3_b", "Writing_4_b")), 
                       counts = as.integer(c(18, 27, 99, 42, 36, 144, 99, 9)))

这会产生一个类似于下面的表格：

     region   criteria      counts
     North    Writing_1_a       18
     South    Writing_2_a       27
     East     Writing_3_a       99
     West     Writing_4_a       42
     North    Writing_1_b       36
     South    Writing_2_b      144
     East     Writing_3_b       99
     West     Writing_4_b        9

现在我想要创建的是这样的：

goal <- data.frame(region = as.factor(c("North", "South", "East", "West")),
                   criteria = as.factor(c("Writing_1", "Writing_2", "Writing_3", "Writing_4")), 
                   counts = as.integer(c(54, 171, 198, 51)))

这意味着当我折叠标准列时，它会汇总计数：

region  criteria     counts
North   Writing_1        54
South   Writing_2       171
East    Writing_3       198
West    Writing_4        51

我试过使用forcats::fct_collapse但forcats::recode()无济于事 - 我很肯定我只是做得不对。提前感谢您提供的任何帮助。

score 1 · Accepted Answer

你可以想一想你到底想做什么来改变因子水平——<code>fct_collapse 会手动将几个水平折叠成一个水平，并fct_recode手动改变各个水平的标签。您要做的是根据应用某些功能更改所有标签，在这种情况下fct_relabel是合适的。

您可以在调用时写出一个匿名函数fct_relabel，或者只是将函数名和该函数的参数传递给它。在这种情况下，您可以使用stringr::str_removeregex 查找和删除一个 regex 模式，并使用 regex_[a-z]$删除任何出现在字符串末尾的下划线和小写字母。这样，它应该可以很好地适应您的真实数据，但如果没有，您可以调整它。

library(tidyverse)
...
new_crits <- demo %>%
  mutate(crit_no_digits = fct_relabel(criteria, str_remove, "_[a-z]$"))

new_crits
#>   region    criteria counts crit_no_digits
#> 1  North Writing_1_a     18      Writing_1
#> 2  South Writing_2_a     27      Writing_2
#> 3   East Writing_3_a     99      Writing_3
#> 4   West Writing_4_a     42      Writing_4
#> 5  North Writing_1_b     36      Writing_1
#> 6  South Writing_2_b    144      Writing_2
#> 7   East Writing_3_b     99      Writing_3
#> 8   West Writing_4_b      9      Writing_4

验证这个新变量是否只有您想要的级别：

levels(new_crits$crit_no_digits)
#> [1] "Writing_1" "Writing_2" "Writing_3" "Writing_4"

然后根据这个新因素进行总结：

new_crits %>%
  group_by(crit_no_digits) %>%
  summarise(counts = sum(counts))
#> # A tibble: 4 x 2
#>   crit_no_digits counts
#>   <fct>           <int>
#> 1 Writing_1          54
#> 2 Writing_2         171
#> 3 Writing_3         198
#> 4 Writing_4          51

^{由reprex 包（v0.2.1）于 2018 年 11 月 4 日创建}

score 0 · Accepted Answer

使用正则表达式的 dplyr 解决方案：

demo %>% 
  mutate(criteria = gsub("(_a)|(_b)", "", criteria)) %>%
  group_by(region, criteria) %>% 
  summarize(counts = sum(counts)) %>% 
  arrange(criteria) %>% 
  as.data.frame

  region  criteria counts
1  North Writing_1     54
2  South Writing_2    171
3   East Writing_3    198
4   West Writing_4     51

r - 折叠一列中因子变量的水平，同时对另一列中的计数求和

2 回答 2

Related

Reference