3

假设我有一个看起来像这样的数据框:

    category  type
[1] A        green
[2] A        purple
[3] A        orange
[4] B        yellow
[5] B        green
[6] B        orange
[7] C        green

如何获取包含出现在每个类别中的那些类型的列表?在这种情况下,它应该如下所示:

    type
[1] green

我知道这个问题是基本的,可能以前有人问过;但是我的方法太长了,我确信有一种更有效的方法:我曾经根据类别拆分数据框,并进行设置交集。请问有没有更好的办法?谢谢!

4

6 回答 6

4

假设 a最多type出现category一次(否则将其更改==>=)并使用table您可以尝试以下操作:

 colnames(table(df))[colSums(table(df)) == length(unique(df$category))]
[1] "green"
于 2015-01-28T21:22:02.370 回答
3

这是使用的一种方法data.table- 前提是type每个类别最多只出现一次:

library(data.table)
DT <- data.table(DF)
##
R> DT[
    ,list(
      nCat=.N
    ),by=type][
      nCat==length(unique(DT$category)),
      type]
[1] "green"

所有这一切都将原始数据聚合为按类型 ( nCat) 的行数,然后通过获取nCat等于 中唯一类别数的行来子集该结果DT

编辑: 感谢@Arun,这可以data.table通过利用该uniqueN功能的更新版本更简洁地完成:

unique(dt)[, .N, by=type][N == uniqueN(dt$category), type]

如果您不能保证type每个类别最多出现一次,您可以对上述内容进行轻微修改:

R> DT[
    ,list(
      nCat=length(unique(category))
    ),by=type][
      nCat==length(unique(DT$category)),
      type]
[1] "green" 

数据:

DF <- read.table(
  text="category  type
A        green
A        purple
A        orange
B        yellow
B        green
B        orange
C        green",
  header=TRUE,
  stringsAsFactors=F)
于 2015-01-28T21:21:42.400 回答
2

我真的找不到一个非常明显的解决方案,但这确实有效。

df <- data.frame(category=c("A", "A", "A", "B", "B", "B", "C"), 
                 type=c("green", "purple", "orange", "yellow", 
                        "green", "orange", "green"))

# Split the data frame by type
# This gives a list with elements corresponding to each type
types <- split(df, df$type)

# Find the length of each element of the list
len <- sapply(types, function(t){length(t$type)})

# If the length is equal to the number of categories then 
# the type is present in all categories 
res <- names(which(len==length(unique(df$category))))

请注意,这sapply将返回类型作为向量的名称,因此names在下一条语句中调用。

于 2015-01-28T21:21:50.400 回答
2

如果df是你的data.frame,这里是“一”行代码,感谢Reduce

x = df$category
y = df$type

Reduce(intersect, lapply(unique(x), function(u) y[x==u]))
#[1] "green"
于 2015-01-28T21:21:53.670 回答
2

一种方法是制作一个表格,然后选择出现每个类别出现次数的类型(在这种情况下为 3),或者由于您说它只能出现一次,只需取平均值并选择平均值 == 1(或 >= 1)。

dat <- read.table(header = TRUE, text="category  type
A        green
A        purple
A        orange
B        yellow
B        green
B        orange
C        green")

tbl <- data.frame(with(dat, ftable(category, type)))
tbl[with(tbl, ave(Freq, type)) >= 1, ]

#   category  type Freq
# 1        A green    1
# 2        B green    1
# 3        C green    1

unique(tbl[with(tbl, ave(Freq, type)) >= 1, 'type'])
# [1] green
于 2015-01-28T21:22:27.443 回答
1

假设您的数据位于df

df.sum <- aggregate(df$tpye, by = list(df$type), FUN = length)
types <- df.sum[which(df$sum == length(unique(df$x))),]

这将计算每种类型的出现次数,并查看哪些出现的次数与您拥有的类别一样多。如果类型在一个类别中出现的次数不超过一次,它将有效地执行您想要的操作,但如果违反该假设,它将无法工作。

于 2015-01-28T21:27:49.933 回答