Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我需要做一些从字符串到整数 id 的映射,我正在考虑做一个 UDF 函数并将这个字符串传递给它。为此,我需要一个映射器。
如何将映射器阻止为 1?
谢谢您的帮助
我了解您要做什么,但是您的基于 UDF 的方法无法很好地扩展,因为该字符串到 id 表必须驻留在内存中。通过使用 map-reduce 作业将字符串从 mapper 传递到单个 reducer,您可能会更轻松。reducer 实例只保留一个递增计数器,用于将传入 reduce 方法的所有字符串(所有相同的字符串)与计数器的下一个整数值相关联。
也许其他人知道如何将输入格式限制为产生简单的拆分(以获得单个映射器)。