我有一个具有以下输入文件的 MapReduce 任务
File1 value1
File1 value2
File2 value3
File2 value4
映射器将访问文件名并搜索其中的特定值。
问:我想要一种优化技术来优化这些文件的磁盘访问。我需要将相同的文件 ID 分配给相同的映射器。所以我可以确保文件一次只能由一项任务访问。
示例:必填
Mapper 1: File1 (value1), File1 (value2)
Mapper 2: File2 (value3), File2 (value4)
不需要:
Mapper 1: File1 (value1), File2 (value3)
Mapper 2: File1 (value2), File2 (value4)
有什么帮助吗?