r - 子集化规则

Question

具有df1和df2如下：

df1 <- read.table(text =" x y z
                          1 1 1
                          1 2 1
                          1 1 2
                          2 1 1
                          2 2 2",header=TRUE)

df2 <- read.table(text =" a b c
                          1 1 1
                          1 2 8
                          1 1 2
                          2 6 2",header=TRUE)

我可以询问数据一堆东西，比如：

 df2[ df2$b == 6 | df2$c == 8 ,] #any rows where b=6 plus c=8 in df2
 #and additive conditions
 df2[ df2$b == 6 & df2$c == 8 ,] # zero rows

数据帧之间：

 df1[ df1$z %in% df2$c ,] # rows in df1 where values in z are in c (allrows)

这给了我所有的行：

 df1[ (df1$x %in%  df2$a) &
      (df1$y %in%  df2$b) &
      (df1$z %in%  df2$c) ,]

但这不应该给我所有的行df1：

 df1[ df1$z %in% df2$c | df1$b == 9,]

我真正希望做的是对三列条件进行子集df1化df2，这样我只能在 df1 中获得行，其中 a,b,c 在一行中同时等于 x,y,z。在实际数据中，我将有超过 3 列，但我仍然希望在 3 个附加列条件上进行子集化。

因此，将我的示例数据df1对df2我的结果进行子集化将是：

df1
   1 1 1
   1 1 2

玩语法让我更加困惑，SO 帖子都是我想要的东西，实际上给我带来了更多的困惑。

我发现我可以这样做：

 merge(df1,df2, by.x=c("x","y","z"),by.y=c("a","b","c"))

这给了我想要的东西，但我想了解为什么我的[尝试是错误的。

score 7 · Accepted Answer

除了您使用的不错的解决方案merge（感谢您，我总是忘记merge）之外，这可以在 base using 中实现，?interaction如下所示。可能还有其他变体，但这是我熟悉的变体：

> df1[interaction(df1) %in% interaction(df2), ]

现在回答你的问题：首先，我认为有一个错字（更正）：

df1[ df1$z %in% df2$c | df2$b == 9,] # second part should be df2$b == 9

你会得到一个错误，因为第一部分评估为

[1] TRUE TRUE TRUE TRUE TRUE

第二个评估为：

[1] FALSE FALSE FALSE FALSE

您|对不等长度进行操作会得到错误：

longer object length is not a multiple of shorter object length

编辑：如果您有多个列，那么您可以选择交互。例如，如果您想从前df1两列与的行匹配的行中获取df2，那么您可以简单地执行以下操作：

> df1[interaction(df1[, 1:2]) %in% interaction(df2[, 1:2]), ]

r - 子集化规则

1 回答 1

Related

Reference