storage - 存储人类基因组需要多少存储空间？

Question

我正在寻找存储单个人类基因组所需的字节存储量（MB、GB、TB 等）。我在维基百科上阅读了几篇关于 DNA、染色体、碱基对、基因的文章，并做了一些粗略的猜测，但在披露任何内容之前，我想看看其他人会如何处理这个问题。

另一个问题是人类 DNA 中有多少原子，但这与本网站无关。

我知道这将是一个近似值，因此我正在寻找能够存储任何人类 DNA 的最小值。

score 79 · Accepted Answer

如果你相信这些东西，这就是维基百科所声称的（来自 http://en.wikipedia.org/wiki/Human_genome#Information_content）：

单倍体人类基因组的 29 亿个碱基对对应最多约 725 兆字节的数据，因为每个碱基对可以用 2 位编码。由于单个基因组之间的差异不到 1%，因此它们可以被无损压缩到大约 4 兆字节。

score 27 · Accepted Answer

您不会将所有 DNA 存储在一个流中，而是大部分时间由染色体存储。

一个大的染色体大约需要 300 MB，一个小的大约 50 MB。

编辑：

我认为它没有以每个碱基对保存 2 位的第一个原因是它会导致处理数据的障碍。大多数人不知道如何转换它。而且即使给出了转换程序，大公司或研究所的很多人都不允许/需要询问或不知道如何安装程序......

1GB 存储没有任何成本，即使下载 3GB 也只需 4 分钟，速度为 100 Mbitsps，而且大多数公司的速度更快。

另一点是数据并不像你说的那么简单。

例如， Craig_Venter发明的测序方法是一个巨大的突破，但也有其不足之处。它无法分离相同碱基对的长链，因此并不总是 100% 清楚是否有 8 个 A 或 9 个 A。以后要注意的事情...

另一个例子是DNA 甲基化，因为您不能以 2 位表示形式存储此信息。

score 15 · Accepted Answer

基本上，每个碱基对占用 2 位（您可以将 00、01、10、11 用于 T、G、C 和 A）。由于人类基因组中有大约 29 亿个碱基对，（2 * 29 亿）位 ~= 691 兆字节。

我不是专家，但是，维基百科上的人类基因组页面指出以下内容：

原始 MB：

男性 (XY): 770MB
女性（XX）：756MB

我不确定他们的差异来自哪里，但我相信你可以弄清楚。

score 10 · Accepted Answer

是的，整个人类 DNA 所需的最小 RAM 约为 770 MB。但是，2 位表示是不切实际的。很难搜索或对其进行一些计算。因此，一些数学家设计了更有效的方法来存储这些碱基序列......并将它们用于搜索和比较算法，例如 GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html)。这个应用程序现在在我的 PC 上运行，所以我可以对你说……它实际上存储了大约1 563 MB的 DNA 。

score 4 · Accepted Answer

刚刚也这样做了。原始序列约为 700 MB。如果使用固定存储序列或固定序列存储算法 - 并且更改为 1% 的事实，我使用 perchromosome-sequenceoffset-statedelta 存储计算出约 120 MB。这就是存储。

score 3 · Accepted Answer

人类基因组包含超过 30 亿个碱基对。因此，如果您将每个碱基对表示为两位，那么它将占用 6.15 × 10⁹ 位或大约 770 MB。

score 3 · Accepted Answer

有 4 个核苷酸碱基构成我们的 DNA，它们是 A、C、G、T，因此 DNA 中的每个碱基占用 2 位。大约有 29 亿个基数，即大约 700 兆字节。奇怪的是，它会填满一张普通的数据光盘！巧合？！？

score 1 · Accepted Answer

除了用户slayton、rauchen、Paul Amstrong之外的大多数答案，如果它是关于没有压缩技术的纯一对一存储，那么它是完全错误的。

具有 3Gb 核苷酸的人类基因组对应于 3Gb 字节，而不是 ~750MB。根据 NCBI 构建的“单倍体”基因组目前大小为 3436687kb 或 3.436687 Gb。自己检查这里。

单倍体 = 染色体的单拷贝。二倍体 = 两个版本的单倍体。人类有 22 条独特的染色体 x 2 = 44。男性第 23 条染色体是 X、Y，总共有 46 条。女性第 23 铬。是 X，X，因此总共是 46。

对于男性来说，在硬盘上的数据存储中是 23 + 1 条染色体，对于女性来说是 23 条染色体，这解释了答案中不时提到的微小差异。X铬。来自男性的等于 X 铬。从女性。

因此，将基因组 (23 + 1) 加载到内存中是通过 BLAST 使用来自 fasta 文件的构建数据库部分完成的。无论压缩版本与否，核苷酸都很难被压缩。早在早期，使用的技巧之一是替换串联重复（GACGACGAC 具有较短的编码，例如“3GAC”；9 字节到 4 字节）。原因是为了节省硬盘空间（具有 7.200 rpm 和 SCSI 连接器的 500bm-2GB HDDD 盘片的区域）。对于序列搜索，这也是通过查询完成的。

如果“编码核苷酸”存储是每个字母 2 位，那么你会得到一个字节：

A = 00
C = 01
G = 10
T = 11

只有这样，您才能完全从位置 1、2、3、4、5、6、7 和 8 中获得 1 个字节的编码。例如，组合 00.01.10.11 （作为 byte 00011011）将对应于“ACTG”（并在文本文件中显示为无法识别的字符）。正如我们在其他答案中看到的那样，仅此一项就可以将文件大小减少四倍。因此 3.4Gb 将缩小到 0.85917175 Gb...~860MB，包括当时所需的转换程序 (23kb-4mb)。

但是...在生物学中，您希望能够阅读某些内容，因此压缩 gzip 就绰绰有余了。解压后依然可以阅读。如果使用此字节填充，则读取数据变得更加困难。这就是为什么 fasta 文件实际上是纯文本文件的原因。

score 0 · Accepted Answer

所有答案都忽略了这样一个事实，即 nuDNA 并不是唯一定义人类基因组的 DNA。mtDNA 也是遗传的，它为人类基因组贡献了额外的 16,500 个碱基对，使其更符合维基百科的猜测，即男性为 770MB，女性为 756MB。

这并不意味着人类基因组可以轻松存储在 4GB 的 U 盘上。比特本身并不代表信息，代表信息的是比特的组合。因此，在 nuDNA 和 mtDNA 的情况下，这些位被编码（不要与压缩混淆）以表示蛋白质和酶，它们本身需要许多 MB 的原始数据来表示，特别是在功能方面。

深思：人类基因组的 80% 被称为“非编码”DNA，那么您真的相信整个人体和大脑可以用 151 到 154MB 的原始数据来表示吗？

score -3 · Accepted Answer

一个碱基——T、C、A、G（在 base-4 数字系统中：0、1、2、3）——被编码为两位（不是一位），因此一个碱基对由四位编码。

score -4 · Accepted Answer

碱基对只有2种，胞嘧啶只能与鸟嘌呤结合，腺嘌呤只能与胸腺嘧啶结合，所以每个碱基对可以认为是一个位。这意味着整个人类 DNA 链约 30 亿个“比特”将是约 350 兆字节。

storage - 存储人类基因组需要多少存储空间？

11 回答 11

Related

Reference