我想在文件中找到重叠的区域并将它们合并,以保持较早的开始和较晚的停止(将 2 个区域合并为 1)
我打算使用基因组范围,但我不确定如何编写脚本。
这是文件fileA.txt包含的内容:
chr start end value
chr1 58708485 58708713 1
chr1 58709084 58710538 2
chr1 98766295 98766639 3
chr1 98766902 98770338 4
脚本:
library(GenomicRanges)
query = with(fileA.txt, GRanges(chr, IRanges(start=start, end=end)))
subject = with(fileA.txt, GRanges(chr, IRanges(start=start, end=end)))
hits = findOverlaps(gr1)
ranges(query)[queryHits(hits)] = ranges(subject)[subjectHits(hits)]
我不确定如何为单个文件设置查询和主题,以及作为文档的对象需要任何类型的“”或特定格式(bedGraph、txt 都可以吗?)以便在脚本中被识别?
非常感谢您的帮助!
K。