我们即将购买新硬件来运行我们的分析,并且想知道我们是否做出了正确的决定。
设置:
我们是一个处理 DNA 测序数据的生物信息学实验室。我们领域最大的问题是数据量,而不是计算。单个实验将很快进入 10-100 Gb,我们通常会同时运行不同的实验。显然,mapreduce 方法很有趣(另请参阅http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.html),但并非我们所有的软件都使用该范例。此外,一些软件使用 ascii 文件作为输入/输出,而其他软件使用二进制文件。
我们可能会购买什么:我们可能购买
的机器将是一台具有 32 核和 192Gb 内存的服务器,连接到 NAS 存储 (>20Tb)。对于我们的许多(非 mapreduce)应用程序来说,这似乎是一个非常有趣的设置,但是这样的配置会阻止我们以有意义的方式实现 hadoop/mapreduce/hdfs 吗?
非常感谢,
简。