0

我正在研究一个有趣的问题,即寻找一种更有效的方法来存储人类疟原虫的基因组,我认为获得您的一些见解会很有用!

所以这里是背景信息:假设我们只使用 2 位来存储基因组的所有 4 个核苷酸(A、C、T、G),但由于基因组仍然超长,我们知道它占用了大量空间. 然而,我们知道 80% 的基因组要么是 A 要么是 T——我们如何利用这些知识以更有效的方式存储基因组?

现在我正在玩一些想法:

  1. 找到一些方法来编码大字符串 A 或大字符串 T - 这需要超过 2 位,但如果字符串特别大,它可以减小大小。例如,如果“01”是“T”的代码,那么“1101”可能是“3 T”的代码(在前两位之后使用正常的二进制系统)。这将为我们节省两位。
  2. 只需将 A 存储为“0”,将 T 存储为“1”,以减少这些字母使用的位数。

还有其他人有什么好的想法可以使这种数据存储尽可能高效吗?我很想听听他们讨论!

4

0 回答 0