我正在尝试在包含两列的数据列表中查找唯一且重复的数据。我真的只想比较第 1 列中的数据。
数据可能如下所示(由选项卡分隔):
What are you doing? Che cosa stai facendo?
WHAT ARE YOU DOING? Che diavolo stai facendo?
what are you doing? Qual è il tuo problema amico?
所以我一直在玩以下内容:
在不忽略大小写的情况下进行排序(只是“排序”,没有 -f 选项)可以减少重复项
gawk '{ FS = "\t" ; 打印 $1 }' EN-IT_Corpus.txt | 排序 | uniq -i -D > 骗子
忽略大小写排序(“sort -f”)给了我更多的重复
gawk '{ FS = "\t" ; 打印 $1 }' EN-IT_Corpus.txt | 排序-f | uniq -i -D > 骗子
如果我想查找忽略大小写的重复项,我是否认为#2 更准确,因为它首先忽略大小写对其进行排序,然后根据排序的数据查找重复项?
据我所知,我无法组合排序和唯一命令,因为排序没有显示重复项的选项。
谢谢,史蒂夫