用 Java 编写了一个随机模拟,它从磁盘上的几个 CSV 文件(总共约 100MB)加载数据并将结果写入另一个输出文件(数据不多,只是一个布尔值和几个数字)。还有一个参数文件,对于不同的参数,模拟输出的分布预计会发生变化。为了确定正确/最佳的输入参数,我需要跨多个输入参数配置运行多个模拟,并查看每组中输出的分布。每个模拟需要 0.1-10 分钟,具体取决于参数和随机性。
我一直在阅读有关 Hadoop 的文章,想知道它是否可以帮助我运行大量模拟;在不久的将来,我可能可以访问大约 8 台联网的台式机。如果我理解正确,map 函数可以运行我的模拟并吐出结果,reducer 可能就是身份。
我担心的是 HDFS,它似乎适用于大文件,而不是一小部分 CSV 文件(没有一个大到足以构成 64MB 的最小推荐块大小)。此外,每个模拟只需要每个 CSV 文件的相同副本。
Hadoop 对我来说是错误的工具吗?