是否可以将文本段落传递给 Mapper 类而不是逐行传递。我正在寻找一个 ParagraphRecordReader 实现。
问问题
462 次
1 回答
1
https://stackoverflow.com/a/5398215/1660002的答案可以回答这个要求。但是,您也可以简单地将配置参数设置textinputformat.record.delimiter
为双换行符字符串(例如:)"\n\n"
来解决此问题。
Apache Hadoop 0.23.x 和 2.x 版本以及 Cloudera 的 CDH3 和 CDH4 版本(如果您使用这些版本)中提供了此可配置功能。
于 2012-09-10T11:58:00.147 回答