r - dplyr 过滤器：获取变量最少的行，但如果有多个最小值，则仅获取第一行

Question

我想使用 , 制作分组过滤器dplyr，在每个组中只返回具有变量最小值的行x。

我的问题是：正如预期的那样，在多个最小值的情况下，将返回所有具有最小值的行。但就我而言，如果存在多个最小值，我只想要第一行。

这是一个例子：

df <- data.frame(
A=c("A", "A", "A", "B", "B", "B", "C", "C", "C"),
x=c(1, 1, 2, 2, 3, 4, 5, 5, 5),
y=rnorm(9)
)

library(dplyr)
df.g <- group_by(df, A)
filter(df.g, x == min(x))

正如预期的那样，所有最小值都返回：

Source: local data frame [6 x 3]
Groups: A

  A x           y
1 A 1 -1.04584335
2 A 1  0.97949399
3 B 2  0.79600971
4 C 5 -0.08655151
5 C 5  0.16649962
6 C 5 -0.05948012

使用 ddply，我会以这种方式完成任务：

library(plyr)
ddply(df, .(A), function(z) {
    z[z$x == min(z$x), ][1, ]
})

...有效：

  A x           y
1 A 1 -1.04584335
2 B 2  0.79600971
3 C 5 -0.08655151

问：有没有办法在 dplyr 中解决这个问题？（出于速度原因）

score 110 · Accepted Answer

更新

使用 dplyr >= 0.3，您可以将slice函数与结合使用which.min，这将是我最喜欢执行此任务的方法：

df %>% group_by(A) %>% slice(which.min(x))
#Source: local data frame [3 x 3]
#Groups: A
#
#  A x          y
#1 A 1  0.2979772
#2 B 2 -1.1265265
#3 C 5 -1.1952004

原始答案

对于样本数据，也可以一个filter接一个地使用两个：

group_by(df, A) %>% 
  filter(x == min(x)) %>% 
  filter(1:n() == 1)

score 38 · Accepted Answer

仅出于完整性考虑：这是最终dplyr解决方案，源自@hadley 和@Arun 的评论：

library(dplyr)
df.g <- group_by(df, A)
filter(df.g, rank(x, ties.method="first")==1)

score 16 · Accepted Answer

对于它的价值，这里有一个data.table解决方案，给那些可能感兴趣的人：

# approach with setting keys
dt <- as.data.table(df)
setkey(dt, A,x)
dt[J(unique(A)), mult="first"]

# without using keys
dt <- as.data.table(df)
dt[dt[, .I[which.min(x)], by=A]$V1]

score 6 · Accepted Answer

这可以通过row_number结合使用来完成group_by。row_number通过不仅按值而且按向量内的相对顺序分配等级来处理平局。要获得具有最小值的每组的第一行x：

df.g <- group_by(df, A)
filter(df.g, row_number(x) == 1)

有关更多信息，请参阅关于窗口函数的 dplyr 小插图。

score 3 · Accepted Answer

dplyr提供slice_min功能，用参数完成工作with_ties = FALSE

library(dplyr)

df %>% 
  group_by(A) %>% 
  slice_min(x, with_ties = FALSE)

输出：

# A tibble: 3 x 3
# Groups:   A [3]
A         x      y
<fct> <dbl>  <dbl>
1 A         1  0.273
2 B         2 -0.462
3 C         5  1.08

score 1 · Accepted Answer

另一种方法：

set.seed(1)
x <- data.frame(a = rep(1:2, each = 10), b = rnorm(20))
x <- dplyr::arrange(x, a, b)
dplyr::filter(x, !duplicated(a))

结果：

  a          b
1 1 -0.8356286
2 2 -2.2146999

也可以很容易地适应在每个组中获得最大值的行。

score 0 · Accepted Answer

我喜欢 sqldf 的简单性。

sqldf("select A,min(X),y from 'df.g' group by A")

输出：

A min(X)          y

1 A      1 -1.4836989

2 B      2  0.3755771

3 C      5  0.9284441

score 0 · Accepted Answer

如果您要过滤 x 的最小值，然后过滤 y 的最小值。一种直观的方法是使用过滤功能：

> df
  A x            y
1 A 1  1.856368296
2 A 1 -0.298284187
3 A 2  0.800047796
4 B 2  0.107289719
5 B 3  0.641819999
6 B 4  0.650542284
7 C 5  0.422465687
8 C 5  0.009819306
9 C 5 -0.482082635  

df %>% group_by(A) %>% 
       filter(x == min(x), y == min(y))
 
# A tibble: 3 x 3
# Groups:   A [3]
  A         x      y
  <chr> <dbl>  <dbl>
1 A         1 -0.298
2 B         2  0.107
3 C         5 -0.482

此代码将过滤 x 和 y 的最小值。

你也可以做一个看起来更具可读性的双重过滤器：

df %>% group_by(A) %>% 
  filter(x == min(x)) %>%
  filter(y == min(y))

# A tibble: 3 x 3
# Groups:   A [3]
  A         x      y
  <chr> <dbl>  <dbl>
1 A         1 -0.298
2 B         2  0.107
3 C         5 -0.482

r - dplyr 过滤器：获取变量最少的行，但如果有多个最小值，则仅获取第一行

8 回答 8

更新

原始答案

Related

Reference