0

我正在尝试使用 bwa mem 将序列读取与 hg19 参考对齐,但我的序列都有一个 UMI(唯一分子标识符)。我像这样使用umitools:

umitools trim --end 5 input.fastq NNNNNN > output.fastq

然后,这将我的 UMI 序列正确地附加到 output.fastq 文件中的名称行,但是当使用 bwa mem 对齐时,我收到以下错误:

paired reads have different names: "someTitle:UMI_ATGCTC", "someTitle:UMI_CATTAT"

有没有办法同时使用 bwa mem 和 umitools 这样就不会发生这种情况?

4

1 回答 1

0

所以这并不能完全回答这个问题,但很接近。umitools 不适用于配对末端读取。我为解决这个问题所做的就是修剪我的 UMI 序列(读取的每侧 6bp),然后使用以下代码对齐:

sed -i~ '2~4s/^.\{6\}//' file

地址的2~4意思是“从第 2 行开始,每 4 行重复一次”。

s表示替换,^匹配行开头,.匹配任何字符,\{6\}指定长度(“量词”)。替换字符串为空 ( //)。

-i~替换文件,留下一个~附加到文件名的备份。

于 2015-02-21T20:20:52.143 回答