100

我正在寻找存储单个人类基因组所需的字节存储量(MB、GB、TB 等)。我在维基百科上阅读了几篇关于 DNA、染色体、碱基对、基因的文章,并做了一些粗略的猜测,但在披露任何内容之前,我想看看其他人会如何处理这个问题。

另一个问题是人类 DNA 中有多少原子,但这与本网站无关。

我知道这将是一个近似值,因此我正在寻找能够存储任何人类 DNA 的最小值。

4

11 回答 11

79

如果你相信这些东西,这就是维基百科所声称的(来自 http://en.wikipedia.org/wiki/Human_genome#Information_content):

单倍体人类基因组的 29 亿个碱基对对应最多约 725 兆字节的数据,因为每个碱基对可以用 2 位编码。由于单个基因组之间的差异不到 1%,因此它们可以被无损压缩到大约 4 兆字节。

于 2012-01-21T16:26:07.057 回答
27

您不会将所有 DNA 存储在一个流中,而是大部分时间由染色体存储。

一个大的染色体大约需要 300 MB,一个小的大约 50 MB。


编辑:

我认为它没有以每个碱基对保存 2 位的第一个原因是它会导致处理数据的障碍。大多数人不知道如何转换它。而且即使给出了转换程序,大公司或研究所的很多人都不允许/需要询问或不知道如何安装程序......

1GB 存储没有任何成本,即使下载 3GB 也只需 4 分钟,速度为 100 Mbitsps,而且大多数公司的速度更快。

另一点是数据并不像你说的那么简单。

例如, Craig_Venter发明的测序方法是一个巨大的突破,但也有其不足之处。它无法分离相同碱基对的长链,因此并不总是 100% 清楚是否有 8 个 A 或 9 个 A。以后要注意的事情...

另一个例子是DNA 甲基化,因为您不能以 2 位表示形式存储此信息。

于 2012-01-21T16:32:13.383 回答
15

基本上,每个碱基对占用 2 位(您可以将 00、01、10、11 用于 T、G、C 和 A)。由于人类基因组中有大约 29 亿个碱基对,(2 * 29 亿)位 ~= 691 兆字节。

我不是专家,但是,维基百科上的人类基因组页面指出以下内容:

原始 MB:

  • 男性 (XY): 770MB
  • 女性(XX):756MB

我不确定他们的差异来自哪里,但我相信你可以弄清楚。

于 2012-01-21T16:33:28.707 回答
10

是的,整个人类 DNA 所需的最小 RAM 约为 770 MB。但是,2 位表示是不切实际的。很难搜索或对其进行一些计算。因此,一些数学家设计了更有效的方法来存储这些碱基序列......并将它们用于搜索和比较算法,例如 GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html)。这个应用程序现在在我的 PC 上运行,所以我可以对你说……它实际上存储了大约1 563 MB的 DNA 。

于 2014-01-25T21:20:47.737 回答
4

刚刚也这样做了。原始序列约为 700 MB。如果使用固定存储序列或固定序列存储算法 - 并且更改为 1% 的事实,我使用 perchromosome-sequenceoffset-statedelta 存储计算出约 120 MB。这就是存储。

于 2014-03-14T14:03:26.760 回答
3

人类基因组包含超过 30 亿个碱基对。因此,如果您将每个碱基对表示为两位,那么它将占用 6.15 × 10⁹ 位或大约 770 MB。

于 2012-01-21T16:26:03.937 回答
3

有 4 个核苷酸碱基构成我们的 DNA,它们是 A、C、G、T,因此 DNA 中的每个碱基占用 2 位。大约有 29 亿个基数,即大约 700 兆字节。奇怪的是,它会填满一张普通的数据光盘!巧合?!?

于 2012-04-24T23:38:28.690 回答
1

除了用户slayton、rauchen、Paul Amstrong之外的大多数答案,如果它是关于没有压缩技术的纯一对一存储,那么它是完全错误的。

具有 3Gb 核苷酸的人类基因组对应于 3Gb 字节,而不是 ~750MB。根据 NCBI 构建的“单倍体”基因组目前大小为 3436687kb 或 3.436687 Gb。自己检查这里

单倍体 = 染色体的单拷贝。二倍体 = 两个版本的单倍体。人类有 22 条独特的染色体 x 2 = 44。男性第 23 条染色体是 X、Y,总共有 46 条。女性第 23 铬。是 X,X,因此总共是 46。

对于男性来说,在硬盘上的数据存储中是 23 + 1 条染色体,对于女性来说是 23 条染色体,这解释了答案中不时提到的微小差异。X铬。来自男性的等于 X 铬。从女性。

因此,将基因组 (23 + 1) 加载到内存中是通过 BLAST 使用来自 fasta 文件的构建数据库部分完成的。无论压缩版本与否,核苷酸都很难被压缩。早在早期,使用的技巧之一是替换串联重复(GACGACGAC 具有较短的编码,例如“3GAC”;9 字节到 4 字节)。原因是为了节省硬盘空间(具有 7.200 rpm 和 SCSI 连接器的 500bm-2GB HDDD 盘片的区域)。对于序列搜索,这也是通过查询完成的。

如果“编码核苷酸”存储是每个字母 2 位,那么你会得到一个字节:

A = 00
C = 01
G = 10
T = 11

只有这样,您才能完全从位置 1、2、3、4、5、6、7 和 8 中获得 1 个字节的编码。例如,组合 00.01.10.11 (作为 byte 00011011)将对应于“ACTG”(并在文本文件中显示为无法识别的字符)。正如我们在其他答案中看到的那样,仅此一项就可以将文件大小减少四倍。因此 3.4Gb 将缩小到 0.85917175 Gb...~860MB,包括当时所需的转换程序 (23kb-4mb)。

但是...在生物学中,您希望能够阅读某些内容,因此压缩 gzip 就绰绰有余了。解压后依然可以阅读。如果使用此字节填充,则读取数据变得更加困难。这就是为什么 fasta 文件实际上是纯文本文件的原因。

于 2018-03-01T10:30:04.777 回答
0

所有答案都忽略了这样一个事实,即 nuDNA 并不是唯一定义人类基因组的 DNA。mtDNA 也是遗传的,它为人类基因组贡献了额外的 16,500 个碱基对,使其更符合维基百科的猜测,即男性为 770MB,女性为 756MB。

这并不意味着人类基因组可以轻松存储在 4GB 的 U 盘上。比特本身并不代表信息,代表信息的是比特的组合。因此,在 nuDNA 和 mtDNA 的情况下,这些位被编码(不要与压缩混淆)以表示蛋白质和酶,它们本身需要许多 MB 的原始数据来表示,特别是在功能方面。

深思:人类基因组的 80% 被称为“非编码”DNA,那么您真的相信整个人体和大脑可以用 151 到 154MB 的原始数据来表示吗?

于 2019-02-17T15:00:37.113 回答
-3

一个碱基——T、C、A、G(在 base-4 数字系统中:0、1、2、3)——被编码为两位(不是一位),因此一个碱基对四位编码

于 2018-04-29T05:14:07.880 回答
-4

碱基对只有2种,胞嘧啶只能与鸟嘌呤结合,腺嘌呤只能与胸腺嘧啶结合,所以每个碱基对可以认为是一个位。这意味着整个人类 DNA 链约 30 亿个“比特”将是约 350 兆字节。

于 2017-05-18T20:56:32.157 回答