0

假设我有这个(简化的)数据框:

C1 <- c('a','a','b','b','c','c')
C2 <- c(10,10,20,21,30,30)
C3 <- c(1.1,2.2,3.3,4.4,5.5,6.6)
df <- data.frame(C1,C2,C3)
C1 C2 C3
一种 10 1.1
一种 10 2.2
b 20 3.3
b 21 4.4
C 30 5.5
C 30 6.6

我想要做的是删除任何包含 C1 值的行,该值在 C2 列中有多个匹配项。在这种情况下,我想删除 C1 列中包含“b”的整行(因为“b”在 C2 列中有两个匹配项 - 20 和 21)。

这应该导致这个df:

C1 C2 C3
一种 10 1.1
一种 10 2.2
C 30 5.5
C 30 6.6

任何帮助将非常感激!

谢谢,

尤瓦尔

4

2 回答 2

1

子集是执行此操作的一种方法:

C1 <- c('a','a','b','b','c','c')
C2 <- c(10,10,20,21,30,30)
C3 <- c(1.1,2.2,3.3,4.4,5.5,6.6)
df <- data.frame(C1,C2,C3)

df_table <- table(df$C2)
df_subset <- subset(df, C2 %in% names(df.table[df.table > 1]))
df_subset
于 2021-04-08T18:25:43.513 回答
1

dplyr是另一种方法。用于group_by分别处理每个C1组,然后filter是每个组,只保留具有单个值的组C2

library(dplyr)

C1 <- c('a','a','b','b','c','c')
C2 <- c(10,10,20,21,30,30)
C3 <- c(1.1,2.2,3.3,4.4,5.5,6.6)
df <- data.frame(C1,C2,C3)

df <- df %>%
    group_by(C1) %>%
    filter(length(unique(C2)) == 1) %>%
    ungroup()

print(df)

输出

# A tibble: 4 x 3
  C1       C2    C3
  <chr> <dbl> <dbl>
1 a        10   1.1
2 a        10   2.2
3 c        30   5.5
4 c        30   6.6
于 2021-04-08T18:56:35.777 回答