4

是否可以将文本段落传递给 Mapper 类而不是逐行传递。我正在寻找一个 ParagraphRecordReader 实现。

4

1 回答 1

1

https://stackoverflow.com/a/5398215/1660002的答案可以回答这个要求。但是,您也可以简单地将配置参数设置textinputformat.record.delimiter为双换行符字符串(例如:)"\n\n"来解决此问题。

Apache Hadoop 0.23.x 和 2.x 版本以及 Cloudera 的 CDH3 和 CDH4 版本(如果您使用这些版本)中提供了此可配置功能。

于 2012-09-10T11:58:00.147 回答