Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想将一个文本文件作为映射器的输入并输出一个序列文件。如何为此编写一个简单的 map-reduce 作业?文本文件将具有制表符分隔值。例如输入:group1 1 2 3 4 5 对于这样的输入,我想创建输出序列文件,其键为“group1”,其值应为 1 2 3 4 5 的向量。
我该如何写这些作业?另外我觉得在这种情况下我不需要减速器。在这种情况下如何编写身份缩减器作业?我可以跳过编写减速器工作吗?
感谢任何帮助。问候。
是的,您可以跳过编写Reducer. 将此设置为简单Reducer.class。也叫setNumReduceTasks(0). 您Mapper应该使用TextInputFormat,作为键Long/Text值输入。是Text线。根据需要将其分解,并将键/值输出为,例如,Text和Text。指定SequenceFileOutputFormat写入序列文件。
Reducer
Reducer.class
setNumReduceTasks(0)
Mapper
TextInputFormat
Long
Text
SequenceFileOutputFormat
我仍然不知道你为什么要这样做,但这就是你这样做的方式。