我有以下格式的来源:
field1(key) field2 field3 field4
111 1 1 randomstring
111 2 1 randomstring
111 3 1 randomstring
111 4 1 randomstring
111 4 1 randomstring2
111 1 2 randomstring
...
每个字段 3 可以有任意数量的字段 2 和字段 4,并且字段 2 可能出现多次字段 4。
我想检查存在的每个 field3 的所有 field2 和 field4 值,并确定所有 field4 值是否相同。
我的第一个想法是尝试使用聚合器转换到 groupby field3,然后在 field4 上使用 groupby 执行额外的聚合,并比较每个之间的 Count(),但我不确定这是否可行,或者是最好的方法执行这个逻辑。
我想了解的是在 field3 上执行第一个 groupby 之后,我如何检查每个条目的所有字段。是否可以在某种意义上应用聚合函数 First() 来获取第一个值,然后作为输出发送以用于以下过滤器转换?