我有一份长期运行的地图工作。每个mapper处理25G左右的数据,写入一个文件。输入数据已排序,因此我无法将输入数据拆分到多个映射器。但是输出数据不需要排序。如何为每个映射器编写多个文件以使输出文件不那么大?我想在文件足够大(比如 1G)时关闭当前打开的文件并开始写入不同的文件。
我有一份长期运行的地图工作。每个mapper处理25G左右的数据,写入一个文件。输入数据已排序,因此我无法将输入数据拆分到多个映射器。但是输出数据不需要排序。如何为每个映射器编写多个文件以使输出文件不那么大?我想在文件足够大(比如 1G)时关闭当前打开的文件并开始写入不同的文件。