我有一个大文件(50 GB),我想计算其中不同行的出现次数。通常我会使用
sort bigfile | uniq -c
但是文件足够大,排序需要大量的时间和内存。我可以
grep -cfx 'one possible line'
对于文件中的每个唯一行,但这意味着 n 为每个可能的行传递文件,这(尽管对内存更友好)比原始行花费的时间更长。
有任何想法吗?
一个相关问题询问了一种在大文件中查找唯一行的方法,但我正在寻找一种方法来计算每个实例的数量——我已经知道可能的行是什么。