我使用很多直方图。特别是,这些直方图是沿着人类基因组片段的碱基调用。
x 轴上的每个点都是组成 DNA 的四个含氮碱基(A、C、T、G)之一,y 轴表示碱基能够被“调用”(或被测序仪识别)的次数机器,以便对基因组进行测序,这只是确定基因组中每个碱基的身份)。
这些直方图中的许多显示大致线性下降(当机器无法获得足够的读取深度时),从类似高原的区域下降到 0 或(几乎为 0)。当分数降至零时,意味着测序仪无法确定碱基的身份。如果您以前见过双螺旋,这意味着测序仪无法确定螺旋的一半梯级的标识。基因组的某些区域比其他区域更难表征。具有大量碱基调用的碱基(或 x 个数据点),数量级 >=100,能够被明确识别。例如,如果一个碱基总共有 250 个调用,我们有 248 个 T 调用,1 个 G 调用和 1 个 A 调用,我们将其称为 T。具有 0 个碱基调用的区域是值得关注的,因为那时我们' 我们必须从邻近区域推断低读取区域的身份可能是什么。是否有一种简单的算法可以为这些图分配反映这种趋势的分数?有关示例 histo,请参见 box.net/shared/nbygq2x03u。