我有一个 I/GRanges Views 对象作为
** 它是数据的简化版本,实际数据巨大
Views on a 10000000-length Rle subject
views:
start end width
[1] 1 1000 1000 [100 100 100 100 100 100 100 100 100 100 ...]
[2] 1001 2000 1000 [190 190 190 190 190 190 190 190 190 190 ...]
[3] 2001 3000 1000 [280 280 280 280 280 280 280 280 280 280 ...]
[4] 3001 4000 1000 [370 370 370 370 370 370 370 370 370 370 ...]
[5] 4001 5000 1000 [460 460 460 460 460 460 460 460 460 460 ...]
... ... ... ... ...
[9996] 995001 9996000 9001000 [89650 89650 89650 89650 89650 89650 ...]
[9997] 996001 9997000 9001000 [89740 89740 89740 89740 89740 89740 ...]
[9998] 997001 9998000 9001000 [89830 89830 89830 89830 89830 89830 ...]
[9999] 998001 9999000 9001000 [89920 89920 89920 89920 89920 89920 ...]
[10000] 999001 10000000 9001000 [90010 90010 90010 90010 90010 90010 ...]
每个视图(线)的宽度为 1000,这意味着 1000 个数据点,每个数据点 100 个。现在,我想将一组数据点分成 20 个箱(在这种情况下,每个箱 50 个),然后取平均值,因此输出将是一个包含 20 个数字的向量,每个数字都是该箱的平均值。
输出 :
[1] 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100
现在,在真实情况下,我有 20 多个这样的视图,每行的宽度不同,有些行 > 5K。我的代码工作正常,但速度很慢,对于我的数据,对于每一行,返回一个包含 20 个 bin 的向量,大约需要 1.5 秒,我有 > 30K 行,大约需要 12.5 小时。
我敢肯定,有一些方法可以加快这些计算,如果没有的话,我可以以某种方式使用集群的并行节点。你有什么建议。
生成数据的测试代码:
library('GenomicRanges')
# generating data frame
df=data.frame(chrom=rep('Chr1',100000),start=seq(1,1000000,by=1000),end=seq(1000,10000000,by=1000),strand=rep("+",100000))
# making GRanges object
gr=GRanges(seqnames=as.vector(df[,1]),IRanges(start=df[,2],end=df[,3]),strand=df[,4])
# obtaining coverage using function coverage in the form of RLE object
gr.cov=coverage(gr)
# generating views for specific start and end
gr.views=Views(gr.cov[[1]],start=seq(1,1000000,by=1000),end=seq(1000,10000000,by=1000))
# putting in temp variable
d=gr.views
# this following code calculates the matrix (where each line is 20 points) for 10 lines
# reduce or increase the number in the outermost sapply loop to increase/decrease the lines to be calculated
sapply(1:10,function(j)
sapply(1:20,
function(i)as.numeric(
format(
mean(
as(d[[j]][(
seq(0,length(d[[j]]),floor(length(d[[j]])/20))+1)[i]:
c((seq(0,length(d[[j]]),floor(length(d[[j]])/20)))[
-length((seq(0,length(d[[j]]),floor(length(d[[j]])/20))))
],length(d[[j]]))[i+1]],
"RangedData")$score),
digits=2)
)
)
)