Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
根据“The Definitive Guide to Hadoop”,输入格式TextInputFormat给出了键值对(k, v) = (byte offset, line)。但是,在 MRJob 中,映射器输入中的键始终是None. 将字节偏移量作为键应该很容易,因为这就是 TextInputFormat 所做的。我怎么得到这个?
TextInputFormat
(k, v) = (byte offset, line)
None
我知道您可以使用环境变量“map_input_start”并自己计算字节偏移量,但这会导致问题,我想以更简单的方法来获取偏移量作为键。
没有在您的映射器类中定义具有以下签名的映射方法给您字节偏移量作为键。
public void map(LongWritable key,Text value,OutputCollector<>,Reporter)
TextInputFormat 是一个 Java 类……我看不出它在流媒体世界中是如何工作的。