2

谢谢你看我的问题。我正在尝试解决这个作业问题。

考虑通过随机读取对基因组进行测序的问题。如果 G 是整个序列的长度,L 是 read 的长度,n 是 reads 的数量,那么覆盖率定义为 nL/G。现在,如果我们希望 50% 的原始长序列被至少一个片段覆盖,我们需要多少覆盖?

我阅读了 Lander-Waterman http://www.genetics.wustl.edu/bio5488/lecture_notes_2005/Lander.htm模型来理解这个概念。但不太明白如何解决这个问题。我想将给定的 50% 视为概率,将 y 视为 1(来自泊松分布的那个)并计算 lambda(即覆盖率)。但我不认为我走在正确的轨道上。我想将 y 视为 1,因为问题说 50% 的原始长序列被至少一个片段覆盖,这意味着这些碱基至少被测序一次。

我可能错了。

请各位高手指导一下。

谢谢你。

4

2 回答 2

1

如果您将其视为一个连续问题(例如,n 很大,L 远小于 G),并假设每次读取的位置是完全随机的,那么每次额外读取被浪费的可能性与现有覆盖率成正比. 这导致以下数学:

d(coverage)/d(n) = (L/G) * (1 - coverage)

由于这是家庭作业,我将把解决方案留给读者作为练习。(不过,我想指出,这是实际使用微积分解决 CS 问题的罕见案例 8^)


求解上述方程,从 n=0 时的 coverage=0 开始,得到:

   ln(1 - coverage) = - (L/G) * n
-> coverage = 1 - exp(- (L/G) * n)

作为现实检查,请注意这是您应该期望看到的:如果您的采样是真正随机的,则 G 的未覆盖部分应该呈指数衰减,就像放射性元素一样。

于 2011-12-08T02:07:23.317 回答
1

我想你到目前为止还没有离开。当我读到它时,y = 1 意味着碱基被“恰好一次”而不是“至少一次”读取。您需要在 P(y=1) + P(y=2) + ... 的概率为 0.5 下计算覆盖率,这等于 ...

于 2011-12-08T10:29:25.237 回答