hadoop - Hadoop、硬件和生物信息学

Question

我们即将购买新硬件来运行我们的分析，并且想知道我们是否做出了正确的决定。

设置：
我们是一个处理 DNA 测序数据的生物信息学实验室。我们领域最大的问题是数据量，而不是计算。单个实验将很快进入 10-100 Gb，我们通常会同时运行不同的实验。显然，mapreduce 方法很有趣（另请参阅http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.html），但并非我们所有的软件都使用该范例。此外，一些软件使用 ascii 文件作为输入/输出，而其他软件使用二进制文件。

我们可能会购买什么：我们可能购买
的机器将是一台具有 32 核和 192Gb 内存的服务器，连接到 NAS 存储 (>20Tb)。对于我们的许多（非 mapreduce）应用程序来说，这似乎是一个非常有趣的设置，但是这样的配置会阻止我们以有意义的方式实现 hadoop/mapreduce/hdfs 吗？

非常感谢，
简。

score 4 · Accepted Answer

你有一个有趣的配置。您使用的 NAS 存储的磁盘 IO 是多少？

根据以下内容做出决定： Map Reduce 范式用于解决处理大量数据的问题。基本上，RAM 比磁盘存储更昂贵。您不能将所有数据都保存在 RAM 中。磁盘存储允许您以更便宜的成本存储大量数据。但是，您从磁盘读取数据的速度并不是很高。Map Reduce 是如何解决这个问题的？Map Reduce 通过将数据分布在多台机器上解决了这个问题。现在，您可以并行读取数据的速度超过了使用单个存储磁盘所能达到的速度。假设磁盘 IO 速度为 100 Mbps。使用 100 台机器，您可以以 100*100 Mbps = 10Gbps 的速度读取数据。

通常，处理器速度不是瓶颈。相反，磁盘 IO 是处理大量数据时的大瓶颈。

我有一种感觉，它可能不是很有效。

hadoop - Hadoop、硬件和生物信息学

1 回答 1

Related

Reference