0

第一篇文章,我通常潜伏,但我找不到任何适合我情况的东西。

所以,我有一个大的制表符分隔文件(约 30 亿行),每行有两个字段。一个是固定长度的字符串(10 个字符,全是字母,全是大写),另一个是可变大小的整数。行之间的第一个字段中的某些条目是相同的,就像这样

AAABBBCCCD    6
QQQQQQQQQQ    1
ZZZTOPZZZZ    299
AAABBBCCCD    14
JHFDSJKHFJ    2
ZZZTOPZZZZ    1

我想要做的是比较第一个字段中的值,找到唯一的值,然后对这些唯一条目的第二个字段值求和,从而得到这样的输出,

AAABBBCCCD    20
QQQQQQQQQQ    1
ZZZTOPZZZZ    300
JHFDSJKHFJ    2

我不一定关心它们是否按整数值排序,但如果是这样的话会很酷。并不是真正的优先事项。

我已经在 perl 中尝试了一些适用于测试文件的东西,但执行速度太慢而无法在真实的东西上使用。所以,是的,我对任何类型的解决方案持开放态度,但我现在特别感兴趣,如果有任何酷/聪明的 bash-fu 可以完成这项工作。

4

0 回答 0