1

组装 DNA 测序产生的片段(通常称为 reads)的一种方法是寻找包含给定 reads 集的所有 reads 的最短公共超串。这个问题的一个模型是重建模型,它计算一个可能的超字符串(包含所有片段)和每个片段之间的最小编辑距离。我还不明白的是,在计算给定片段的编辑距离时,有必要计算该片段的反向补码的编辑距离。
片段及其反向补体的示例可能是:

ACTGTCC 片段
TGACAGG 补体(我们知道的互补链)
GGACAGT 反向补体

根据我正在阅读的书,它背后的想法是找到一个尽可能短的超字符串,即给定片段或其反向补码必须是超字符串的近似子字符串。我知道许多数学/计算模型对于解决生物学问题的方式没有生物学意义,但是我认为这种重建模型在生物学上是合理的,找到一个包含 DNA 某个区域的所有片段的字符串序列,以及所有的补体片段,毕竟在组装时我们可以找到两条链序列。但是对于给定的序列来说,反向互补是不存在的,除非它经历了某种断裂重组事件,这是意料之外的事情,主要是在谈论保守区域时。你知道为什么这个模型考虑了反向补语吗?提前致谢。

4

0 回答 0