hadoop - 我如何解释 Hadoop 不在某些特殊的 MapReduce 任务中拆分我的文件？

翻译自：https://stackoverflow.com/questions/27238835 2014-12-01T22:51:13.643

83 次

1

鉴于我有一个要使用 Hadoop 处理的文件，并且我知道文件的大小小于 HDFS 的块大小。这是否保证文件不会被拆分，并且我不需要为它写一个 InputSplit，因为默认的不会拆分它？
假设使用 SequenceFileOutputFormat（或其他输出格式）保存的文件大于块大小，但仅包含一个键值对。这是否意味着文件块将存储在同一节点上（复制副本除外）并且 MapReduce 任务不会浪费太多时间来获取它们？这是否意味着我不需要编写自己的 inputSplit 因为密钥不会被拆分（密钥大小小于块大小并且只有一个密钥）？

0 回答 0