如果您正在阅读本文并花宝贵的时间帮助我解决我遇到的问题,我真的很感激。
在 R 中,我想将数据从一个数据帧中的小连续 bin 排序到另一个数据帧中所有重叠间隔的大小和分布不规则的(非重叠)bin。
我的第一个数据框看起来像这样(实际的数据框将有数十万行):
chr bin from to BS_seq_Count
SL4.0ch01 1 1 500 3
SL4.0ch01 2 501 1000 10
SL4.0ch01 3 1001 1500 3
SL4.0ch02 1 1 500 3
SL4.0ch02 2 501 1000 10
SL4.0ch02 3 1001 1500 3
SL4.0ch03 1 1 500 3
SL4.0ch03 2 501 1000 10
SL4.0ch03 3 1001 1500 3
...
这是我想将其重叠并分类到相应箱中的数据框:
chr bin from to
SL4.0ch01 1 200 700
SL4.0ch01 2 800 1300
SL4.0ch02 1 300 400
SL4.0ch03 1 50 600
SL4.0ch03 2 700 800
SL4.0ch03 3 1000 1200
...
最后它应该有点像这样(小数/四舍五入没那么重要,但部分重叠的计数也应该分类到垃圾箱中):
chr bin from to count
SL4.0ch01 1 200 700 5.8
SL4.0ch01 2 800 1350 6.1
SL4.0ch02 1 300 400 0.6
SL4.0ch03 1 50 600 4.7
SL4.0ch03 2 700 800 2
SL4.0ch03 3 1000 1200 1.2
...
我曾想过将 GenomicRanges 与 findOverlaps 函数一起使用,但无法弄清楚在这种情况下如何使其正常工作。
如果有人对如何解决这个问题有任何想法,任何帮助将不胜感激!
提前谢谢您,祝您周末愉快,身体健康!