2

我有一个来自一系列患者的基因组区域范围的列表。

> head(dotoo)
GRanges with 6 ranges and 3 metadata columns:
    seqnames                 ranges strand |       Id       CN Histology
       <Rle>              <IRanges>  <Rle> | <factor> <factor>  <factor>
[1]        3 [167946693, 168005541]      * |        9        3        MD
[2]        3 [189907623, 189954633]      * |        9        3        MD
[3]        6 [132274121, 132384438]      * |        9        3        MD
[4]       11 [ 67685096,  70138399]      * |        9        4        MD
[5]       12 [ 53859037,  53927595]      * |        9        3        MD
[6]       15 [ 19830049,  20089383]      * |        9        1        MD

当我使用

autoplot(dotoo, aes(fill=as.factor(Id), color=as.factor(Id)))

我看到许多重叠区域,见图

在此处输入图像描述

如何找出至少 3 名患者之间哪些区域重叠并共享CN

基本上,如果您查看图片,我如何找到“堆叠”的区域,以及仅共享的部分?有办法吗?

4

1 回答 1

3

获取“不相交”区域的列表(也许这不是您想要的?其他选项reduce只是原始dotoo对象,根本没有这一步)

d = disjoint(dotoo)

找到原始区域和每个不相交区域之间的重叠

olap = findOverlaps(query=dotoo, subject=d)

基于主题和 CN 将索引拆分为重叠

splt = split(seq_along(olap), list(subjectHits(olap), dotoo$CN[queryHits(olap)]))

将这些过滤到满足您条件的那些

filt = Filter(function(x) length(x) >= 3, splt)

filt现在是索引列表olap。您可以创建一个具有重叠元素的 GRangesList

idx = unlist(filt)
grp = rep(seq_along(filt), sapply(filt, length))
splitAsList(dotoo[queryHits(olap)[idx]], grp)

在 Bioconductor邮件列表中询问有关Bioconductor软件包的问题(无需订阅)。

于 2013-12-14T02:05:20.753 回答