我是 hadoop 新手,刚刚安装了 oracle 的 virtualbox 和 hortonworks 的沙箱。然后,我下载了最新版本的 hadoop 并将 jar 文件导入到我的 java 程序中。我复制了一个示例 wordcount 程序并创建了一个新的 jar 文件。我使用沙箱将此 jar 文件作为作业运行。字数按预期工作得很好。但是,在我的工作状态页面中,我看到输入文件的映射器数量被确定为 28。在我的输入文件中,我有以下行。
Ramesh 在 XXXXXXXXXX XX XXXXX XX XXXXXXXXX 学习。
映射器总数是如何确定为 28 的?
我将以下行添加到我的 wordcount.java 程序中进行检查。
FileInputFormat.setMaxInputSplitSize(job, 2);
另外,我想知道输入文件是否只能包含 2 行。(即)假设我有一个输入文件,如下所示。
第1行,第2行,第3行,第4行,第5行,第6行.......第20行
我应该将输入文件拆分为 20 个不同的文件,每个文件只有 2 行吗?