1

我正在尝试使用 circos 软件描绘我的寄生虫的全基因组序列 (WGS) 数据。

我想描述的元素之一是参考基因组的区域,我没有来自我的寄生虫的测序数据。

为了做到这一点,我使用 Samtools 创建了一个 mpileup 文件,我从中提取了序列深度 = 0 的位置。因此,我有一个如下所示的文件:

$chromosome_name $chromosome_position $depth
chr_1 1 0
chr_1 2 0
chr_1 3 0
chr_2 67 0
chr_2 68 0 
chr_2 1099 0
chr_2 1100 0
chr_2 1101 0

这意味着 1 号染色体中有 3 个位置没有序列数据(深度 = 0):即位置 1、2 和 3。对于 2 号染色体,没有数据的位置是位置 67、68、1099、1100 和 1101。

由于我的文件很大(多达 300 万行),而且很多未排序的位置都是间隔的,我想根据上述数据创建一个间隔文件。此外,circos 需要这样的间隔文件才能创建图块。因此,我需要从上面创建一个新文件,如下所示:

$chromosome_name $start_pos $end_pos
chr_1 1 3
chr_2 67 68
chr_2 1099 1101

我搜索了一堆,但我只发现与按预定义时间间隔对数据进行分组有关的问题(例如,在 6 个月内发生的团购,按年龄划分的患者等)。

因此,如果有人可以帮助我,我将非常高兴!西德塞尔

4

1 回答 1

0

考虑使用床具。具体的bedtools merge子命令:

http://bedtools.readthedocs.io/en/latest/content/tools/merge.html

从这个页面,它似乎做你想做的事:

bedtools merge 将间隔文件中的重叠或“书端”特征组合成一个跨越所有组合特征的单一特征。

此外,您可以使用该-d选项指定要合并的特征之间的最大距离:

-d 特征之间允许合并特征的最大距离。默认值为 0。也就是说,重叠和/或书端特征被合并。

于 2017-08-23T14:57:52.403 回答