1

我正在尝试从文件中删除所有重复的行并使用以下命令:

sort text.txt | uniq -u > ALL.txt

但是我收到了这个错误:

sort: string comparison failed: Invalid or incomplete multibyte or wide character
sort: Set LC_ALL='C' to work around the problem.
sort: The strings compared were `http://lestarsmagazine.com/2011/10/07/adja-ndoye-ex-mannequin-\253-balla-gaye-adja-diallo-mara-ndiaye-l\222alcool-la-drogue-et-moi-\273/2691278-3806038/ | 0\r' and `http://sopfree.com/slight-conditioning/ | 0\r'.

为了解决这个问题,我需要将命令更改为什么?

4

2 回答 2

3
LC_ALL='C' sort text.txt | LC_ALL='C' uniq > ALL.txt

编辑:删除了“-u”。从您的描述看来,您不应该使用它。您可能误解了手册页。该选项将跳过输入中的非唯一行,而不是合并它们。

于 2013-06-20T09:41:46.987 回答
0

问题不在于您的命令不正确,而在于您的数据。从错误中,看起来行分隔符text.txt不正确或损坏。我强烈建议您查看您的数据(即使只是在文本编辑器中打开它并再次保存它可能会修复它)或将其发布在这里以便其他人可以查看它。

于 2013-06-20T13:05:25.910 回答