正如@JeffMercado 指出的那样, jq 可以很好地处理 JSON 流,但是如果您使用group_by
,那么您必须确保其输入是一个数组。在这种情况下,可以使用-s
命令行选项来完成;如果您的 jq 有inputs
过滤器,那么也可以将该过滤器与该-n
选项结合使用。
但是,如果您有一个 jq 版本inputs
(在 jq 1.5 中可用),那么更好的方法是使用以下流式变体group_by
:
# sort-free stream-oriented variant of group_by/1
# f should always evaluate to a string.
# Output: a stream of arrays, one array per group
def GROUPS_BY(stream; f): reduce stream as $x ({}; .[$x|f] += [$x] ) | .[] ;
使用示例:GROUPS_BY(inputs; .id)
请注意,您将希望将其与-n
命令行选项一起使用。
这种流式传输变体有两个主要优点:
- 它通常需要较少的内存,因为它不需要在处理整个输入流时将整个输入流的副本保存在内存中;
- 它可能更快,因为它不需要任何排序操作,不像
group_by/1
.
请注意,上面的定义GROUPS_BY/2
遵循这种流过滤器的约定,因为它产生一个流。其他变体当然是可能的。
处理大量数据
下面说明如何节省内存。假设任务是生成 .id 值的频率计数。单调的解决方案是:
GROUPS_BY(inputs; .id) | [(.[0]|.id), length]
一个更经济且确实更好的解决方案是:
GROUPS_BY(inputs|.id; .) | [.[0], length]