我正在尝试使用 circos 软件描绘我的寄生虫的全基因组序列 (WGS) 数据。
我想描述的元素之一是参考基因组的区域,我没有来自我的寄生虫的测序数据。
为了做到这一点,我使用 Samtools 创建了一个 mpileup 文件,我从中提取了序列深度 = 0 的位置。因此,我有一个如下所示的文件:
$chromosome_name $chromosome_position $depth
chr_1 1 0
chr_1 2 0
chr_1 3 0
chr_2 67 0
chr_2 68 0
chr_2 1099 0
chr_2 1100 0
chr_2 1101 0
这意味着 1 号染色体中有 3 个位置没有序列数据(深度 = 0):即位置 1、2 和 3。对于 2 号染色体,没有数据的位置是位置 67、68、1099、1100 和 1101。
由于我的文件很大(多达 300 万行),而且很多未排序的位置都是间隔的,我想根据上述数据创建一个间隔文件。此外,circos 需要这样的间隔文件才能创建图块。因此,我需要从上面创建一个新文件,如下所示:
$chromosome_name $start_pos $end_pos
chr_1 1 3
chr_2 67 68
chr_2 1099 1101
我搜索了一堆,但我只发现与按预定义时间间隔对数据进行分组有关的问题(例如,在 6 个月内发生的团购,按年龄划分的患者等)。
因此,如果有人可以帮助我,我将非常高兴!西德塞尔