0

我是 hadoop 新手,对 map reduce 有基本的了解,map 函数的输入将是键值对。那么我基本上如何确定我的句子何时完成以及如何计算它。是否可以使用默认输入格式,即 TextInput 格式,或者我们可以使用其他输入格式以更简单的方式进行操作。

4

1 回答 1

0

我想你只需检查线路的时间段。决定是否应该忽略省略号 (...) 等。然后,当每一行都传递给 map() 方法时,您将写出一个键/值来计算上下文中的合法周期。结束一个句子意味着什么的定义是你的电话。这样做的逻辑应该很简单。

您可以让整个句子一次一个地传递给 map() 方法,但这要困难得多。您基本上采用相同的逻辑并将其放入新的输入格式类型和相应的 RecordReader 中。如果您可以选择使用 map() 方法中的逻辑,而不是输入格式类型和记录阅读器。

于 2013-04-08T14:49:20.070 回答