第一篇文章,我通常潜伏,但我找不到任何适合我情况的东西。
所以,我有一个大的制表符分隔文件(约 30 亿行),每行有两个字段。一个是固定长度的字符串(10 个字符,全是字母,全是大写),另一个是可变大小的整数。行之间的第一个字段中的某些条目是相同的,就像这样
AAABBBCCCD 6
QQQQQQQQQQ 1
ZZZTOPZZZZ 299
AAABBBCCCD 14
JHFDSJKHFJ 2
ZZZTOPZZZZ 1
我想要做的是比较第一个字段中的值,找到唯一的值,然后对这些唯一条目的第二个字段值求和,从而得到这样的输出,
AAABBBCCCD 20
QQQQQQQQQQ 1
ZZZTOPZZZZ 300
JHFDSJKHFJ 2
我不一定关心它们是否按整数值排序,但如果是这样的话会很酷。并不是真正的优先事项。
我已经在 perl 中尝试了一些适用于测试文件的东西,但执行速度太慢而无法在真实的东西上使用。所以,是的,我对任何类型的解决方案持开放态度,但我现在特别感兴趣,如果有任何酷/聪明的 bash-fu 可以完成这项工作。