0

我有一个 RNA-seq bam 文件,但很少有读数让我感到困惑。

根据bam头,这个bam文件是按坐标排序的,使用tophat创建的,markduplicate步骤没有做。但是一些读取在 samflag 中被标记为重复。更糟糕的是,当我运行 picard markduplicate 时,这些读取的 pcr 重复标志被切换,将它们标记为不重复。此外,我手动找到了此读取的副本(具有相同起始位置和配对起始位置的相同读取),因此初始标记看起来是正确的。

所以我的问题是:
知道为什么会发生这种情况吗?
Tophat 是否标记为重复?(我不这么认为)
如果读取已经被标记为重复,那么 picard markduplicate 是否会切换?

以下是标记重复步骤之前和之后读取的外观。
Before:
C0RTF 1187 17 7579880 255 61M10754N40M = 7579927 10902 CTC...
0UNP1 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC...

After Markduplicate
C0RTF 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC...
0UNP1 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC...

谢谢

4

0 回答 0