linux - “排序文件名| uniq”不适用于大文件

Question

我可以从小文本文件中删除重复条目，但不能从大文本文件中删除。
我有一个 4MB 的文件。
文件的开头如下所示：

aa
aah
aahed
aahed
aahing
aahing
aahs
aahs
aal
aalii
aalii
aaliis
aaliis
...

我想删除重复项。
例如，“aahed”出现两次，我只希望它出现一次。

无论我尝试过哪种单线，大名单都不会改变。

如果输入： sort big_list.txt | 独特 | 少见
：

aa
aah
aahed
aahed   <-- didn't get rid of it
aahing
aahing   <-- didn't get rid of it
aahs
aahs   <-- didn't get rid of it
aal
...

但是，如果我从这个文本文件的顶部复制一小块单词并在小块数据上重新运行命令，它会达到预期的效果。

这些程序是否因为文件太大而拒绝排序？我不认为 4MB 很大。它不会输出警告或任何东西。

我很快就编写了自己的“uniq”程序，它也有同样的行为。它适用于列表的一小部分，但对 4MB 文本文件没有任何作用。我的问题是什么？

编辑： 这是一个十六进制转储：

00000000  61 61 0a 61 61 68 0a 61  61 68 65 64 0a 61 61 68  |aa.aah.aahed.aah|
00000010  65 64 0d 0a 61 61 68 69  6e 67 0a 61 61 68 69 6e  |ed..aahing.aahin|
00000020  67 0d 0a 61 61 68 73 0a  61 61 68 73 0d 0a 61 61  |g..aahs.aahs..aa|
00000030  6c 0a 61 61 6c 69 69 0a  61 61 6c 69 69 0d 0a 61  |l.aalii.aalii..a|
00000040  61 6c 69 69 73 0a 61 61  6c 69 69 73 0d 0a 61 61  |aliis.aaliis..aa|

61 61 68 65 64 0a
a  a  h  e  d  \r

61 61 68 65 64 0d
a  a  h  e  d  \n

已解决：不同的行分隔符

score 6 · Accepted Answer

6

sort(1)命令接受-u键唯一性选项。

只需使用

 sort -u big_list.txt

于 2013-03-19T07:32:42.757 回答

score 4 · Accepted Answer

4

您可以标准化行分隔符（将 CR+LF 转换为 LF）：

sed 's/\r//' big_list.txt | sort -u

于 2013-03-19T11:12:44.683 回答

score 3 · Accepted Answer

回答max taldykin关于以下内容的问题awk '!_[$0]++' file：

awk '!_[$0]++' file是相同的

awk '!seen[$0]++' file

, 这与

awk '!seen[$0]++ { print; }' file

，意思是

awk '
    {
        if (!seen[$0]) {
            print;
        }
        seen[$0]++;
    }' file

这里的重点：

$0表示当前记录，通常是当前行
在awk中，动作部分是可选的，默认动作是{ print; }
在算术上下文中，未初始化的 var 是0

score 2 · Accepted Answer

2

除了sort -u 你还可以使用awk '!_[$0]++' yourfile

于 2013-03-19T07:35:29.650 回答

linux - “排序文件名| uniq”不适用于大文件

4 回答 4

Related

Reference