5

我很快意识到生物信息学并不是一个术语定义明确且易于访问的学科。我与我的一些结果有明显的差异。

samtools view -b -h -f 8 fileName.bam > mateUnmapped.bam在几个 BAM 文件上使用过。我的印象是该命令仅提取其伙伴与草稿基因组不对齐的读取(还包括标题;输出为 BAM 格式)

当我samtools 'flagstat'在结果文件上使用时,我得到了一个有趣的结果:“单例”的数量与读取的总数不匹配……这对我来说似乎很奇怪。

我能找到的唯一和解是在这里:

http://seqanswers.com/forums/showthread.php?t=46711

一位回答本论坛提出的问题的人声称,单例有时被定义为根本没有伙伴读取的序列。但是,这仍然不能解释我的结果。Flagstat 说我大约 40% 的读取是单例,但我觉得根据我使用的“查看”命令,它们应该都是单例。

经验丰富的生物信息学家可以帮助我吗?

4

1 回答 1

8

在一般的基因组组装中,单子是没有组装成重叠群或映射到参考的读取。它是一个只有 1 个读取的 contig。

在 samtools 中,单例是指映射但伴侣没有映射的读取。

Flagstat 说我大约 40% 的读取是单例,但我觉得根据我使用的“查看”命令,它们应该都是单例。

我不是 samtools 专家,但我认为-f 8意味着显示读取其伙伴没有映射的读取。这并没有说明阅读本身,只是它的伴侣。因此,您可能会读取两个配偶根本没有映射的读数(60%)和只有一个配偶映射的读数(40%)。?

您可能想尝试运行与-f 8 -F 4被映射但其伴侣没有的读取。

于 2015-06-11T17:55:03.140 回答