在对齐序列读数并转换为 BAM 后,我可以看到 9 个碱基缺失的存在。
这个删除区域也被 mpileup 和 bcftools 正确调用
bcftools mpileup -Ou -f $ref xxx.bam -o newbcfMPILE_xxx
bcftools call newbcfMPILE_xxx --ploidy 1 -mv -Ov -o newbcfMPILE_xxx_haploid.vcf
bcftools call newbcfMPILE_${sname} --ploidy 1 -c -Ov | vcfutils vcf2fq > cns_xxx.fq
在共有序列中,这部分是:
ctagtttgtctAgtttGaagcta <--consensus from vcf2fq
ctagtttg---------aagcta <--Expect this because reads with deletions is predominant
...........A....G...... <--mutations in other reads without deletion, which fill in the gaps in the consensus
ctagtttgtctGgtttTaagcta <--REF
在 vcf 文件中,我确实看到这些 indel 突变具有比其他更多数量的删除突变读取。
#CHROM POS REF ALT QUAL INFO
SARSCOV2 11287 GTCTGGTTTT G 228.344 DP=224; DP4=27,1,167,29;MQ=54
SARSCOV2 11288 TCTGGTTTTA T 228.325 DP=205; DP4=15,4,159,27;MQ=54
总共 224 个读数中的 167+29 = 196 个显示删除。除了两端有一个碱基外,其他缺失重叠,占主导地位的比例相似。
有没有一种方法可以使删除的部分被删除(或用---------填充)而不是少数读取中的核苷酸产生共识?