Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想ID3/C4.5在Hadoop. 任何人都可以通过想法如何继续。
ID3/C4.5
Hadoop
我对算法很清楚,但我需要知道如何并行化它们。
我会考虑将属性选择的一次迭代作为一项 MapReduce 作业的方法。按照这个想法,您可以将属性分配给每个映射器以检查信息增益,并且在缩减阶段(使用单个缩减器),您可以选择最佳属性。 如果在一台机器上计算单次迭代(在所有属性上)比作业启动开销(大约 20-40 秒)稍长,我会认为这种方法是实用的。