-5

我有以下数据:

df1 <- data.frame(chrom=c("chr1","chr2","chr5"),
    start=c(10,20,30), end=c(100,200,300), stringsAsFactors=FALSE)

df2 <- data.frame(chrom=c("chr1","chr4","chr2","chr1"),
    start=c(15,500,150,200), end=c(75,1000,300,300), stringsAsFactors=FALSE)

我想做以下事情:

for(i in 1:nrow(df2)) {
    # only if this condition is true (i.e. if there is overlap)
    if((df1$start <= df2$start && df1$end >= df2$start) ||
       (df1$start >= df2$start && df1$start <= df2$end)) {
        x <- df2[which(df2$chrom %in% df1$chrom),]
    }
}

答案应该是:

df3 <- data.frame(chrom=c("chr1", "chr2"), start=c(15,150),
    end=c(75,300), stringsAsFactors=FALSE)

对不起所有的混乱。

人们对我的查询非常有耐心,这是一次非常有帮助和学习的经历。但是我试图了解循环是如何工作的,我越想越困惑。例如:

for(i in 1:nrow(df2)) {
    x <- df2[which(df2$chrom %in% df1$chrom),]
}

与以下内容完全相同:

x <- df2[which(df2$chrom %in% df1$chrom),]

所以你甚至不需要循环。这怎么可能?我猜which是在为你做循环吗?

4

1 回答 1

2

你可以走得更远:

df2[df2$chrom %in% df1$chrom,]

由于 R 是“矢量化的”,因此您将从 df2 返回与您给出的条件匹配的行。把它分成两部分:

> df2$chrom %in% df1$chrom  
[1] TRUE FALSE  TRUE  TRUE

也就是说,第 1、3 和 4 行满足这个条件。然后我们df2使用该布尔向量进行子集化。R 只会返回你告诉它的行TRUE

> df2[c(TRUE, FALSE, TRUE, TRUE),]
  chrom start end
1  chr1    15  75
3  chr2   150 300
4  chr1   200 300
> 

这有帮助吗?

根据评论编辑:

非常非 R 的方式将嵌套 for 循环......

output <- data.frame()
for(i in 1:nrow(df2)) {
  foo <- NULL
  for(j in 1:nrow(df1)) {
    if(df1$chrom[j]==df2$chrom[i]) {
      foo <- df2[i,]
    }
  }
  output <- rbind(output, foo)
}

然而,这正是在 R 中不应该做的事情......

于 2012-04-10T19:25:08.380 回答