python - 如何在文本文件中找到重复的行并打印它们？

Question

我有一个包含 1,200 行的文本文件。其中一些是重复的。

我怎样才能在文件中找到重复的行（但不担心大小写），然后在屏幕上打印出该行的文本，这样我就可以去寻找它了？我不想删除它们或任何东西，只是找出它们可能是哪些行。

score 25 · Accepted Answer

这很容易用一组：

with open('file') as f:
    seen = set()
    for line in f:
        line_lower = line.lower()
        if line_lower in seen:
            print(line)
        else:
            seen.add(line_lower)

score 9 · Accepted Answer

因为只有 1200 行，所以你也可以使用collections.Counter()：

>>> from collections import Counter

>>> with open('data1.txt') as f:
...     c=Counter(c.strip().lower() for c in f if c.strip()) #for case-insensitive search
...     for line in c:
...         if c[line]>1:
...             print line
...

如果data1.txt是这样的：

ABC
abc
aBc
CAB
caB
bca
BcA
acb

输出是：

cab
abc
bca

score 2 · Accepted Answer

查找不区分大小写的重复项

这不会给你行号，但它会给你一个重复行的列表，然后你可以进一步调查。例如：

tr 'A-Z' 'a-z' < /tmp/foo | sort | uniq -d

示例数据文件

# /tmp/foo
one
One
oNe
two
three

上面列出的管道将正确产生：

一

查找行号

然后，您可以像这样 grep 相关的行号：

grep --ignore-case --line-number one /tmp/foo

python - 如何在文本文件中找到重复的行并打印它们？

3 回答 3

查找不区分大小写的重复项

示例数据文件

查找行号

Related

Reference