Apache Hadoop 的灵感来自 Google MapReduce 论文。MapReduce 的流程可以看作是两组 SIMD(单指令多数据),一组用于 Mappers,另一组用于 Reducers。Reducers 通过预定义的“key”消耗 Mappers 的输出。MapReduce框架(和Hadoop)的本质是自动对数据进行分区,确定分区数量和并行作业,管理分布式资源。
我有一个并行运行的通用算法(不一定是 MapReducable)。我没有以 MapReduce 方式实现算法本身。相反,该算法只是一个单机 python/java 程序。我想并行运行这个程序的 64 个副本(假设程序中没有并发问题)。即我对Hadoop集群中的计算资源比对MapReduce框架更感兴趣。无论如何我可以以这种旧方式使用 Hadoop 集群吗?