我有一个 300mb 的文本文件,块大小为 128mb。因此将创建总共 3 个块 128+128+44 mb。纠正我 - 对于 map reduce,默认输入拆分与可以配置的 128mb 块大小相同。现在记录阅读器将读取每个拆分并创建键值对,键是偏移量,值是单行。(TextInputFormat) 问题是,如果在我的块的最后一行,块结束但该行确实在另一个块中结束,那么该行的其余部分是否会从不同的节点中取出,或者剩余的行是否会在另一个节点中运行。另外,第二个节点如何理解它的第一行已经被处理并且不需要再次处理。
例如,这是 stackoverflow。这(块 1 结束/输入拆分)是一个 map reduce 示例。(行结束)