鉴于我有一个要使用 Hadoop 处理的文件,并且我知道文件的大小小于 HDFS 的块大小。这是否保证文件不会被拆分,并且我不需要为它写一个 InputSplit,因为默认的不会拆分它?
假设使用 SequenceFileOutputFormat(或其他输出格式)保存的文件大于块大小,但仅包含一个键值对。这是否意味着文件块将存储在同一节点上(复制副本除外)并且 MapReduce 任务不会浪费太多时间来获取它们?这是否意味着我不需要编写自己的 inputSplit 因为密钥不会被拆分(密钥大小小于块大小并且只有一个密钥)?
问问题
83 次