Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我是 hadoop 新手,对 map reduce 有基本的了解,map 函数的输入将是键值对。那么我基本上如何确定我的句子何时完成以及如何计算它。是否可以使用默认输入格式,即 TextInput 格式,或者我们可以使用其他输入格式以更简单的方式进行操作。
我想你只需检查线路的时间段。决定是否应该忽略省略号 (...) 等。然后,当每一行都传递给 map() 方法时,您将写出一个键/值来计算上下文中的合法周期。结束一个句子意味着什么的定义是你的电话。这样做的逻辑应该很简单。
您可以让整个句子一次一个地传递给 map() 方法,但这要困难得多。您基本上采用相同的逻辑并将其放入新的输入格式类型和相应的 RecordReader 中。如果您可以选择使用 map() 方法中的逻辑,而不是输入格式类型和记录阅读器。