论文“Map-Reduce for Machine Learning on Multicore”展示了 10 种机器学习算法,它们可以从 map reduce 模型中受益。关键是“任何符合统计查询模型的算法都可以写成某种“求和形式”,算法可以表示为求和形式可以应用map reduce编程模型。
对于那些不能表达为求和形式的算法,并不意味着它们不能应用map reduce模型。谁能指出任何特定的机器学习算法,这些算法不能通过 map reduce 模型加速?
论文“Map-Reduce for Machine Learning on Multicore”展示了 10 种机器学习算法,它们可以从 map reduce 模型中受益。关键是“任何符合统计查询模型的算法都可以写成某种“求和形式”,算法可以表示为求和形式可以应用map reduce编程模型。
对于那些不能表达为求和形式的算法,并不意味着它们不能应用map reduce模型。谁能指出任何特定的机器学习算法,这些算法不能通过 map reduce 模型加速?
当数据中存在计算依赖性时,MapReduce 不起作用。这种限制使得很难表示在结构化模型上运行的算法。
因此,当面临大规模问题时,我们经常放弃丰富的结构化模型,转而采用适合 MapReduce 抽象2的过于简单的方法。
在机器学习社区中,许多算法在学习和推理过程中迭代地变换参数,例如信念传播、期望最大化、梯度下降和吉布斯采样。这些算法迭代地细化一组参数,直到某些终止标准匹配2。
如果您在每次迭代中调用 MapReduce,是的,我认为您仍然可以加快计算速度。这里的重点是我们需要一个更好的抽象框架,以便能够包含数据的图形结构,表达复杂的调度或自动评估终止。