r - 数据清理 - 转换为 tidyverse

Question

我很好奇以下代码是否可以转换为 tidyverse 代码。我已经尝试过 dplyr::mutate 并且无法让它正常工作。

df$Gender[df$Gender == "M"] <- "Man"
df$Gender[df$Gender == "Male"] <- "Man"
df$Gender[df$Gender == "F"] <- "Woman"
df$Gender[df$Gender == "Female"] <- "Woman"
df$Gender[df$Gender == "M & F"] <- "Man and Woman"
df$Gender[df$Gender == "Male & Female"] <- "Man and Woman"

score 5 · Accepted Answer

这是一种方法，使用dplyr::case_when()：

df$Gender <- dplyr::case_when(
  df$Gender %in% c("M", "Male") ~ "Man", 
  df$Gender %in% c("F", "Female") ~ "Woman",
  df$Gender %in% c("M & F", "Male & Female") ~ "Man and Woman",
  TRUE ~ NA_character_)

或者，如果您想使用典型的dplyr::/magrittr::管道链方法：

df <- df %>% mutate(Gender = case_when(
  Gender %in% c("M", "Male") ~ "Man", 
  Gender %in% c("F", "Female") ~ "Woman",
  Gender %in% c("M & F", "Male & Female") ~ "Man and Woman",
  TRUE ~ NA_character_))

最后，提示：当您需要对许多唯一值进行分组时，使用case_when()（或嵌套ifelse()s，或子集赋值等）可能会变得非常乏味。避免很多痛苦的一种方法是使用命名向量将每个值替换为字典样式的“查找表”（术语非正式 - 有关某些背景，请参阅wiki on“associative array”）。以我的经验，这通常感觉最干净：

# the unique values 
gender_values <- c("M","Man","Male","F","Woman","Female","MF","male-female")

# associate unique values with our new labels: "m", "f", and "b"
gender_lkup <- setNames(c("m","m","m","f","f","f","b","b"), gender_values)

# suppose this is a column of a df 
raw_column <- sample(gender_values, 10, replace=TRUE)

# create a clean one with `gender_lkup` 
clean_column <- gender_lkup[raw_column]

# inspect the two vectors side-by-side
data.frame(original=raw_column, cleaned=clean_column)

r - 数据清理 - 转换为 tidyverse

1 回答 1

Related

Reference