3

这是 samtools mpileup 结果的一部分:

chr7    55241514        G       2786    .....................
chr7    55241515        C       2786    .....................
chr7    55241516        C       2786    .....................
chr7    55241517        G       2786    .....................
chr7    55241518        T       2786    .....................
chr7    55241519        G       2786    .$.$.$.$.$.$.$.$.$.$.
chr7    55241520        G       2776    .....................
chr7    55241521        C       2776    .....................
chr7    55241522        T       2776    .....................
chr7    55241523        G       2774    .....................
chr7    55241524        C       2774    .....................
chr7    55241525        T       2774    .....................
chr7    55241526        G       2723    .....................
chr7    55241527        G       2723    .$.$.$.$.$.$.$.$.$.$.
chr7    55241609        C       7999    ......^F.^F.^F.^F.^F.
chr7    55241610        C       7999    .....................
chr7    55241611        C       7999    .....................
chr7    55241612        A       7999    .....................
chr7    55241613        G       7999    .....................
chr7    55241614        C       7999    .....................
chr7    55241615        T       7999    .....................
chr7    55241616        T       7999    .....................

我不知道“^F”是什么意思,我咨询了mpileup指挥官的帮助,符号'^'标志着阅读的开始。'^' 减去 33 之后的字符的 ASCII 给出了映射质量。符号“$”标记读取段的结束。它没有说“F”,有人知道这个结果中“F”的含义吗?

4

2 回答 2

1

欢迎使用fastq 格式。使用ASCII 表,您将看到“F”的十进制值为 70。因此,与“F”相关的质量得分为 70 - 33,即 37。

假设您的堆积是使用 Illumina 1.8+ 编码的数据集生成的,质量得分范围为 0 到 41。因此 37 是该位置的相当高的质量得分。从记忆里:

40 would give a base call accuracy of 99.99%
30 would give a base call accuracy of 99.90%
20 would give a base call accuracy of 99.00%
10 would give a base call accuracy of 90.00%
 0 would give a base call accuracy of 00.00%
于 2012-10-14T08:36:12.510 回答
0

您几乎自己找到了答案:

...符号“^”标志着读取的开始。'^' 减去 33 之后的字符的 ASCII 给出了映射质量。

因此,“F”编码了从该位置开始的一次读取的映射质量(我认为史蒂夫谈论的是碱基调用质量)。质量是phred 分数,即对数标度错误概率:P = 10^(-Q/10)。您可以通过检查 ASCII 表(例如 man ascii)得出质量的数值,然后减去 33。F 转换为 70,映射质量为 37。映射质量的定义因校准器而异,但理论上这意味着从该列开始的读取有 10^(-37/10)=0.01% 的未对齐机会。

安德烈亚斯

于 2012-10-14T11:19:58.040 回答