5

我有一个包含两列数据的文件,我想计算第一列中相似性的出现。当第一列中的两个相似条目匹配时,我还想将两个匹配条目的第二列的值相加。

示例列表:

2013-11-13-03 1
2013-11-13-06 1
2013-11-13-13 2
2013-11-13-13 1
2013-11-13-15 1
2013-11-13-15 1
2013-11-13-15 1
2013-11-13-17 1
2013-11-13-23 1
2013-11-14-01 1
2013-11-14-04 6
2013-11-14-07 1
2013-11-14-08 1
2013-11-14-09 1
2013-11-14-09 1

我希望输出类似于以下内容

2013-11-13-03 1 1
2013-11-13-06 1 1
2013-11-13-13 2 3
2013-11-13-15 3 3
2013-11-13-17 1 1
2013-11-13-23 1 1
2013-11-14-01 1 1
2013-11-14-04 1 6
2013-11-14-07 1 1
2013-11-14-08 1 1
2013-11-14-09 2 2

第 1 列是前面示例第 1 列中的匹配列,第 2 列是前面示例中第 1 列的匹配计数(如果没有其他匹配项,则为 1),第 3 列是来自匹配的第 1 列条目的第 2 列的总和前面的例子。有人对使用 awk 或 uniq 和 awk 的混合物完成此操作有任何提示吗?

4

2 回答 2

5

这是一个快速的awksort

awk '
{
    counts[$1]++;     # Increment count of lines.
    totals[$1] += $2; # Accumulate sum of second column.
}
END {
    # Iterate over all first-column values.
    for (x in counts) {
        print x, counts[x], totals[x];
    }
}
' file.txt | sort

sort如果您不关心输出行的顺序,您可以跳过。

于 2013-11-14T18:51:09.063 回答
1

这是一个纯 Bash 解决方案

$ cat t
2013-11-13-03 1
2013-11-13-06 1
2013-11-13-13 2
2013-11-13-13 1
2013-11-13-15 1
2013-11-13-15 1
2013-11-13-15 1
2013-11-13-17 1
2013-11-13-23 1
2013-11-14-01 1
2013-11-14-04 6
2013-11-14-07 1
2013-11-14-08 1
2013-11-14-09 1
2013-11-14-09 1
$ declare -A SUM CNT
$ while read ts vl; do (( SUM[$ts]=+$vl )) ; (( CNT[$ts]++ )); done < t
$ for i in "${!CNT[@]}"; do   echo "$i ${CNT[$i]} ${SUM[$i]} "; done | sort
2013-11-13-03 1 1 
2013-11-13-06 1 1 
2013-11-13-13 2 3 
2013-11-13-15 3 3 
2013-11-13-17 1 1 
2013-11-13-23 1 1 
2013-11-14-01 1 1 
2013-11-14-04 1 6 
2013-11-14-07 1 1 
2013-11-14-08 1 1 
2013-11-14-09 2 2 
于 2013-11-14T21:04:39.400 回答