1

我在数据库系统中有数据,由于几个原因,我无法使用 LOAD 语句提取这些数据。我需要 Pig 通过键(标识符)查找此数据,但如果我实现 Java UDF,我担心一对一键查找的性能。基本上,如果我的关系上有 10,000 个条目,我想以某种方式在 500 个键的集合中查找这些数据。Pig 是否提供了一个接口,允许我调用一个 java 方法,该方法将接收一组键并返回一组(包或映射)可以连接或以某种方式分配给 Pig 关系中的元组的答案?

在此先感谢您的帮助!

4

1 回答 1

0

几个建议:

  • 您能否编写您的 UDF 以期望在一个批次中查询一袋标识符 - 然后您只需要编写猪将您的 10,000 个标识符分成多个批次(袋子 - 尽管我不确定如何'简单'这是),然后是后续的猪代码以展平并重新加入 UDF 输出
  • 使用MAPREDUCE关键字,并在映射器实现中进行批量查询
于 2013-07-11T00:06:01.030 回答