2

我想ID3/C4.5Hadoop. 任何人都可以通过想法如何继续。

我对算法很清楚,但我需要知道如何并行化它们。

4

1 回答 1

0

我会考虑将属性选择的一次迭代作为一项 MapReduce 作业的方法。按照这个想法,您可以将属性分配给每个映射器以检查信息增益,并且在缩减阶段(使用单个缩减器),您可以选择最佳属性。
如果在一台机器上计算单次迭代(在所有属性上)比作业启动开销(大约 20-40 秒)稍长,我会认为这种方法是实用的。

于 2012-10-15T16:14:05.810 回答