谢谢你看我的问题。我正在尝试解决这个作业问题。
考虑通过随机读取对基因组进行测序的问题。如果 G 是整个序列的长度,L 是 read 的长度,n 是 reads 的数量,那么覆盖率定义为 nL/G。现在,如果我们希望 50% 的原始长序列被至少一个片段覆盖,我们需要多少覆盖?
我阅读了 Lander-Waterman http://www.genetics.wustl.edu/bio5488/lecture_notes_2005/Lander.htm模型来理解这个概念。但不太明白如何解决这个问题。我想将给定的 50% 视为概率,将 y 视为 1(来自泊松分布的那个)并计算 lambda(即覆盖率)。但我不认为我走在正确的轨道上。我想将 y 视为 1,因为问题说 50% 的原始长序列被至少一个片段覆盖,这意味着这些碱基至少被测序一次。
我可能错了。
请各位高手指导一下。
谢谢你。