我有一个需要处理的文件,其中包含包含可变行数的记录。
例如我有以下文件: -
100,abc,123
101,abc,123
120,abc,123
100,abc,123
111,abc,123
123,abc,123
120,abc,123
100,abc,123
111,abc,123
120,abc,123
100,abc,123
114,abc,123
120,abc,123
上面的粗体和非粗体显示了每条记录。 因此,您可以从上面看到的每条记录都以 100 开头,以 120 结尾。但是每条记录都包含可变数量的行,例如 3 或 4 等。现在我知道这可以使用自定义输入格式和自定义记录阅读器来解决我可以重用 linerecordreader 来处理可变行。但是使用这种方法的问题是,如果记录(从 100 行开始并以 120 结束)本身太大而无法包含在地图中作为单个记录。所以在这种情况下,这将失败。所以我需要一些更好的解决方案,通过它可以使用默认输入格式和记录读取器并在映射器或减速器等中做一些事情。如果问题可以以某种方式解决,也欢迎不止一项工作。