Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个包含 > 1000 万行的大文件。我想使用 MapReduce 获得重复的行。我怎么解决这个问题?感谢帮助
您需要利用 MapReduce 的默认行为是基于公共键对值进行分组这一事实。
所以所需的基本步骤是: