资料来源:谷歌面试问题
给定一个大型计算机网络,每台计算机都保存访问 url 的日志文件,找到前 10 个访问量最大的 URL。
有很多大<string (url) -> int (visits)> maps
的。
计算 < string (url) -> int (sum of visits among all distributed maps)
,得到组合图的前十名。
主要限制:地图太大而无法通过网络传输。也不能直接使用 MapReduce。
我现在遇到了很多此类问题,需要在大型分布式系统上进行处理。我想不出或找到合适的答案。
我能想到的只是蛮力,它以某种或其他方式违反了给定的约束。