我必须处理一个sort
似乎无法处理的文件。这些文件是 apprx。每个 3 GB。
输入如下:
last-j nmod+j+n year-n 9492
last-j nmod+j+n night-n 8075
first-j nmod+j+n-the time-n 7749
same-j nmod+j+n-the time-n 7530
other-j nmod+j+n-the hand-n 5319
ast-j nmod+j+n year-n 1000
last-j nmod+j+n night-n 5000
first-j nmod+j+n-the time-n 1000
same-j nmod+j+n-the time-n 3000
other-j nmod+j+n-the hand-n 200
我需要在其中总结相应重复项的数量。
所以所需的输出如下:
last-j nmod+j+n year-n 10492
last-j nmod+j+n night-n 13075
first-j nmod+j+n-the time-n 8749
same-j nmod+j+n-the time-n 10530
other-j nmod+j+n-the hand-n 5519
我一直在尝试这个排序命令,它应该可以解决问题
sort input | uniq -c | awk '{print $2 "\t" $3 "\t" $1*$4}'
并且内存不足。有什么建议可以更优化以处理更大的数据文件吗?谢谢