apache-pig - 合并/分离 Pig UDF 返回

Question

假设 Pig UDF 创建了两种不同类型的数据记录。

Pig 脚本如何以两种不同的方式处理从这个 UDF 返回的组合元组列表？

例如：

public Tuple exec (Tuple input)  // input ignored in UDF for simplicity
   {
   Tuple t = TupleFactory.getInstance ().newTuple ();
   if (Math.random () < 0.5)
      t.append ("less than half");
   else
      t.append (new Date ());
   return t;
   }

Pig 脚本应该执行以下操作：

register ...
define myUDF ...
data = load ...;
combinedList = foreach data generate myUDF (data);

stringList = filter combinedList by $0 instanceof java.lang.String; // ??
dateList = filter combinedLists by $0 instanceof java.util.Date; //??

store stringList into ... ;
store dateList into ... ;

谢谢，

score 0 · Accepted Answer

这里有两个问题。

在任何情况下，您都不应该从您的 UDF 返回不同的数据类型。这违反了最小意外原则和其他一些事情。如果要指示无效值，则返回null或某些无效常量会更合适。
您要做的不是使用多个过滤器来完成，而是有相应的SPLIT操作。尽管您instanceof在 Pig 中使用的示例是错误的，但基本用法类似于SPLIT combinedList INTO stringList IF $0 instanceof String, dateList IF $0 instanceof Date.

apache-pig - 合并/分离 Pig UDF 返回

1 回答 1

Related

Reference