shell - awk 操作 csv 文件

Question

我想使用 awk 读取 csv 文件。csv 文件包含 5 列，c1、c2、c3、c4、c5。我想判断c1，c2和c3一起是唯一的，就像数据库约束一样。

这是示例 csv 文件：

c1,c2,c3,c4,c5
1886,5141,11-2011,62242.57,52.71
1886,5140,11-2011,63763.75,52.22
23157666,4747,11-2011,71.07,83.33
1886,5141,11-2011,4645.45,2135.45

在这种情况下，row1和row4违反了唯一性约束，并提示错误信息。

如何用awk实现它？提前非常感谢。

score 5 · Accepted Answer

awk -F, 'line[$1,$2,$3] {printf "Error: lines %d and %d collide\n", line[$1,$2,$3], NR; next} {line[$1,$2,$3] = NR}'

score 1 · Accepted Answer

这列出了每个重复的所有行。它只为每组输出一次重复消息。

awk -F, '{count[$1,$2,$3]++; line[$1,$2,$3] = line[$1,$2,$3] ", " NR} END {for (i in count) {if (count[i] > 1) {v=i; gsub(SUBSEP, FS, v); print "Error: lines", substr(line[i], 3), "collide on value:", v}}}'

分成多行：

awk -F, '
    {
        count[$1,$2,$3]++; 
        line[$1,$2,$3] = line[$1,$2,$3] ", " NR
    }
    END {
        for (i in count) {
            if (count[i] > 1) {
                v = i;
                gsub(SUBSEP, FS, v);
                print "Error: lines", substr(line[i], 3), "collide on value:", v
            }
        }
    }'

这是凯文答案的变体。

shell - awk 操作 csv 文件

2 回答 2

Related

Reference