-1

Map-reduce/hadoop 非常适合从各种资源的大量数据中收集见解,并以我们想要的方式组织它们。

但是在训练方面,我的印象是我们必须一次将所有训练数据转储到算法中(无论是 SVN、Logistic 回归还是随机森林),这样算法才能提出一个具有这一切。map-reduce/hadoop 可以在培训部分提供帮助吗?如果是,一般情况如何?

4

1 回答 1

2

是的。MapReduce 的实现有很多,比如 hadoop 流,甚至还有一些简单的工具,比如 Pig,可以用来学习。此外,还有基于 Map/Reduce 构建的分布式学习工具集,例如 vowpal wabbit ( https://github.com/JohnLangford/vowpal_wabbit/wiki/Tutorial )。这种方法的主要思想是对一小部分数据(由 HDFS 分割)进行训练,然后对模型进行平均并与每个节点进行交换。因此模型直接从基于部分数据构建的子模型中获取更新。

于 2013-08-29T17:44:02.360 回答