json - 使用 JQ 优化 JSON 非规范化 - 1:N 的“笛卡尔积”

Question

我有一个 JSON 数据库更改日志，输出为wal2json. 它看起来像这样：

{"xid":1190,"timestamp":"2018-07-19 17:18:02.905354+02","change":[
    {"kind":"update","table":"mytable2","columnnames":["id","name","age"],"columnvalues":[401,"Update AA",20],"oldkeys":{"keynames":["id"],"keyvalues":[401]}},
    {"kind":"update","table":"mytable2","columnnames":["id","name","age"],"columnvalues":[401,"Update BB",20],"oldkeys":{"keynames":["id"],"keyvalues":[401]}}]}
 ...

每个顶级条目 ( xid) 都是一个事务，其中的每个项目change都是一个变化。一行可能会更改多次。

要导入功能集有限的 OLAP 系统，我需要明确说明顺序。所以我需要为sn事务中的每个更改添加一个。
此外，每个更改都必须是顶级条目 - OLAP 不能在一个条目中迭代子项。

{"xid":1190, "sn":1, "kind":"update", "data":{"id":401,"name":"Update AA","age":20} }
{"xid":1190, "sn":2, "kind":"update", "data":{"id":401,"name":"Update BB","age":20} }
{"xid":1191, "sn":1, "kind":"insert", "data":{"id":625,"name":"Inserted","age":20} }
{"xid":1191, "sn":2, "kind":"delete", "data":{"id":625} }

（原因是OLAP在导入过程中转换数据的能力有限，也没有顺序作为参数。）

所以，我这样做使用jq：

function transformJsonDataStructure {
    ## First let's reformat it to XML, then transform using XPATH, then back to JSON.

    ## Example input:
    # {"xid":1074,"timestamp":"2018-07-18 17:49:54.719475+02","change":[
    #   {"kind":"update","table":"mytable2","columnnames":["id","name","age"],"columnvalues":[401,"Update AA",20],"oldkeys":{"keynames":["id"],"keyvalues":[401]}},
    #   {"kind":"update","table":"mytable2","columnnames":["id","name","age"],"columnvalues":[401,"Update BB",20],"oldkeys":{"keynames":["id"],"keyvalues":[401]}}]}
    cat "$1" | while read -r LINE ; do
        XID=`echo "$LINE" | jq -c '.xid'`;
        export SN=0;
        #serr "{xid: $XID, changes: $CHANGES}";
        echo "$LINE" | jq -c '.change[]' | while read -r CHANGE ; do
            SN=$((SN+=1))
            KIND=`echo "$CHANGE" | jq -c --raw-output .kind`;
            TABLE=`echo "$CHANGE" | jq -c --raw-output .table`;
            DEST_FILE="$TARGET_PATH-$TABLE.json";
            case "$KIND" in
                update|insert)
                    MAP=$(convertTwoArraysToMap "$(echo "$CHANGE" | jq -c ".columnnames")" "$(echo "$CHANGE" | jq -c ".columnvalues")") ;;
                delete)
                    MAP=$(convertTwoArraysToMap "$(echo "$CHANGE" | jq -c ".oldkeys.keynames")" "$(echo "$CHANGE" | jq -c ".oldkeys.keyvalues")") ;;
            esac
            #echo "{\"xid\":$XID, \"table\":\"$TABLE\", \"kind\":\"$KIND\", \"data\":$MAP }" >> "$DEST_FILE"; ;;
            echo "{\"xid\":$XID, \"sn\":$SN, \"kind\":\"$KIND\", \"data\":$MAP }" | tee --append "$DEST_FILE";
        done;
    done;

    return;
}

问题是性能。我jq每个条目都打了几次电话。这是相当慢的，比没有转换慢大约 1000 倍。

如何仅使用一次传递执行上述转换？(jq不是必须的，也可以使用其他工具，但应该在 CentOS 软件包中。我想避免为此编写额外的工具。

看来man jq它可以一次性处理整个文件（每行的 JSON 条目）。我可以在 XSLT 中做到这一点，但我无法理解jq。change尤其是数组的迭代和组合columnnames和columnvalues映射。

对于迭代，我认为map还是map_values可以使用的。
对于要映射的 2 个数组，我看到了from_entriesandwith_entries函数，但无法让它工作。

jq有哪位高手指点一下吗？

score 0 · Accepted Answer

下面的帮助函数将传入的数组转换为一个对象，并使用headers它们作为键：

def objectify(headers):
  [headers, .] | transpose | map({(.[0]): .[1]}) | add;

现在的诀窍是使用range(0;length)生成.sn：

  {xid} +
  (.change
   | range(0;length) as $i
   | .[$i]
   | .columnnames as $header
   | {sn: ($i + 1),
      kind,
      data: (.columnvalues|objectify($header)) } )

输出

对于给定的日志条目，输出将是：

{"xid":1190,"sn":1,"kind":"update","data":{"id":401,"name":"Update AA","age":20}}
{"xid":1190,"sn":2,"kind":"update","data":{"id":401,"name":"Update BB","age":20}}

道德

如果一个解决方案看起来太复杂，它可能是。

json - 使用 JQ 优化 JSON 非规范化 - 1:N 的“笛卡尔积”

1 回答 1

输出

道德

Related

Reference