我有一个问题,需要我在迭代过程中过滤大量数据,数十 TB。由于大小,我想在 2 个连续的地图阶段中进行计算,这样数据就不需要通过网络重新传输。
所以算法中的步骤是1)分析所有数据并做出决定,2)重新运行相同的数据并根据1的决定进行过滤过程。
我认为有两种方法可以解决这个问题,但每种方法似乎都有很大的问题。
1)解决方案,ChainMapper。问题:第一个映射器需要在第二个开始之前完全完成。
2)解决方案,两个工作。问题:在作业之间删除数据时,数据会通过网络重新传输。
我确定我缺少一些东西,但我真的可以使用一些帮助!
谢谢