0

我需要做一些从字符串到整数 id 的映射,我正在考虑做一个 UDF 函数并将这个字符串传递给它。为此,我需要一个映射器。

如何将映射器阻止为 1?

谢谢您的帮助

4

1 回答 1

0

我了解您要做什么,但是您的基于 UDF 的方法无法很好地扩展,因为该字符串到 id 表必须驻留在内存中。通过使用 map-reduce 作业将字符串从 mapper 传递到单个 reducer,您可能会更轻松。reducer 实例只保留一个递增计数器,用于将传入 reduce 方法的所有字符串(所有相同的字符串)与计数器的下一个整数值相关联。

也许其他人知道如何将输入格式限制为产生简单的拆分(以获得单个映射器)。

于 2012-09-04T20:06:41.127 回答