r - 在矩阵中选择仅满足指定条件但在 R 中不满足其他条件的元素

Question

我有一个矩阵“垫子”，有两行以下形式：

我定义了一个名为“neg”的变量，它只包含数字 0。

neg <- 0

我想在矩阵的第一列中选择第二列中只有“否定”的那些元素。

因此，我不想说 mat[mat[,1]%in%0,1] 会选择第一行中第二个至少有一个 0 的每个数字，我只想得到那些只有 0 的数字，在此示例仅选择 4 个。

score 3 · Accepted Answer

我会用plyr这个。但首先阅读您的数据：

dat = read.csv(textConnection("1  0
1  2
1  3
1  5
1  9 
1  4
1  7
1  11
1  8
2  3
2  4
2  2
3  9
3  0
4  0
5  0
5  13
6  22
6  0"), header = FALSE, sep = "")

在加载 plyr 之后，我想找到唯一的类别，V1其中只有值等于negin column V2，从而产生一个列表：true_values。

require(plyr)
neg = 0
test = ddply(dat, .(V1), summarise, bool = all(V2 == neg))
>     test
  V1  bool
1  1 FALSE                                                                  
2  2 FALSE                                                                  
3  3 FALSE                                                                  
4  4  TRUE                                                                  
5  5 FALSE                                                                  
6  6 FALSE 
true_values = test[["V1"]][test[["bool"]]]
> true_values
[1] 4

一旦我们有了这个列表，我们就可以对原始数据集进行子集化：

> dat[dat[["V1"]] %in% true_values,]
   V1 V2
15  4  0

或者，我们可以生成一个布尔向量，直接指定要从中选择哪些元素dat：

test = ddply(dat, .(V1), mutate, bool = all(V2 == neg))

...并执行子集：

> dat[test[["bool"]],]
   V1 V2
15  4  0

score 0 · Accepted Answer

这仅适用于您的特定情况，但您可以使用tapply：

as.numeric(names(which(tapply(a[,2],a[,1],sum)==0)))

如果您将第一列视为因子，则 tapply 为第一列中的每个因子水平计算第二列中的总和。

对于多值情况，这样的事情 - 诚然丑陋 - 应该工作：

as.numeric(names(which(tapply(dat[,2],dat[,1],FUN=function(x){all(unique(x)%in%neg & length(x)==length(neg))}))))

r - 在矩阵中选择仅满足指定条件但在 R 中不满足其他条件的元素

2 回答 2

Related

Reference