我有一个 100 TB 的文本文件,它有多行记录。而且我们没有给出每条记录占用多少行。一个记录的大小可以是 5 行,另一个可能是 6 行,另一个可能是 4 行。它不确定每条记录的行大小可能会有所不同。
所以我不能使用默认的 TextInputFormat,我已经编写了自己的输入格式和自定义记录阅读器,但我的困惑是:当拆分发生时,我不确定每个拆分是否包含完整记录。记录的某些部分可以进入第 1 部分,而另一些部分可以进入第 2 部分。但这是错误的。
那么,您能否建议如何处理这种情况,以便我保证我的完整记录在单个 InputSplit 中?
提前致谢-JE