我想写 MapReduce(可能是多轮!)
1. Sample N records from Large data - for say X RandomTree
2. Train each tree (totally X)
3. And then test records on all these trees
依次,
for X = 0 to 199:
- sample N records from Large data
- Train this tree
- test for all test records
这是我的作业问题,所以我只需要想法..!
我不确定
- 在映射器中,我可以准确地采样 N 条记录并生成 200 个小型训练数据文件吗?
- 为了测试所有 200 个第一个选项 的每条记录,我认为每个 reducer 将为所有树运行小测试(测试文件的一部分)。第二个选项我不确定,如何实现是,独立运行 200 棵树,测试文件在分布式缓存中,预测每个测试记录。