1

我有以下格式的来源:

field1(key)  field2  field3     field4
  111          1        1     randomstring
  111          2        1     randomstring
  111          3        1     randomstring   
  111          4        1     randomstring
  111          4        1     randomstring2
  111          1        2     randomstring
  ...

每个字段 3 可以有任意数量的字段 2 和字段 4,并且字段 2 可能出现多次字段 4。

我想检查存在的每个 field3 的所有 field2 和 field4 值,并确定所有 field4 值是否相同。

我的第一个想法是尝试使用聚合器转换到 groupby field3,然后在 field4 上使用 groupby 执行额外的聚合,并比较每个之间的 Count(),但我不确定这是否可行,或者是最好的方法执行这个逻辑。


我想了解的是在 field3 上执行第一个 groupby 之后,我如何检查每个条目的所有字段。是否可以在某种意义上应用聚合函数 First() 来获取第一个值,然后作为输出发送以用于以下过滤器转换?

4

0 回答 0