consensus - 为什么 vcf2fq 生成的共识序列即使在它们占主导地位时也会错过插入缺失？怎么修？

翻译自：https://stackoverflow.com/questions/66701680 2021-03-19T02:19:41.740

77 次

在对齐序列读数并转换为 BAM 后，我可以看到 9 个碱基缺失的存在。

这个删除区域也被 mpileup 和 bcftools 正确调用

bcftools mpileup -Ou -f $ref xxx.bam -o newbcfMPILE_xxx
bcftools call newbcfMPILE_xxx --ploidy 1 -mv -Ov -o newbcfMPILE_xxx_haploid.vcf
bcftools call newbcfMPILE_${sname} --ploidy 1 -c -Ov | vcfutils vcf2fq > cns_xxx.fq

在共有序列中，这部分是：

ctagtttgtctAgtttGaagcta  <--consensus from vcf2fq
ctagtttg---------aagcta  <--Expect this because reads with deletions is predominant
...........A....G......  <--mutations in other reads without deletion, which fill in the gaps in the consensus

ctagtttgtctGgtttTaagcta  <--REF

在 vcf 文件中，我确实看到这些 indel 突变具有比其他更多数量的删除突变读取。

#CHROM      POS     REF        ALT  QUAL    INFO
SARSCOV2    11287   GTCTGGTTTT  G   228.344 DP=224; DP4=27,1,167,29;MQ=54
SARSCOV2    11288   TCTGGTTTTA  T   228.325 DP=205; DP4=15,4,159,27;MQ=54

总共 224 个读数中的 167+29 = 196 个显示删除。除了两端有一个碱基外，其他缺失重叠，占主导地位的比例相似。

有没有一种方法可以使删除的部分被删除（或用---------填充）而不是少数读取中的核苷酸产生共识？

consensus - 为什么 vcf2fq 生成的共识序列即使在它们占主导地位时也会错过插入缺失？怎么修？

0 回答 0

Related

Reference