我刚刚开始学习 Mapreduce 并且有一些我想回答的问题。开始:
1)案例1:FileInputFormat作为输入格式。具有多个要处理的文件的目录是输入路径。如果我有 n 个文件,所有文件小于 hadoop 集群中的块大小,为 map reduce Job 计算多少拆分?
2) 我在一个名为 MyFileInputFormat 的类中扩展 FileInputFormat,并重写 isSplitable 以始终返回 false。输入配置同上。在这种情况下我会得到 n 次拆分吗?
3)如果说n个文件中的1个文件略大于集群的块大小,我会在第二种情况下得到n+1个分割吗?
在此先感谢您的帮助!