bash - 如何找到两个文件的设置差异？

Question

我有两个文件 A 和 B。我想找到 A 中不在 B 中的所有行。在 bash/使用标准 linux 实用程序中最快的方法是什么？这是我到目前为止所尝试的：

for line in `cat file1`
 do
   if [ `grep -c "^$line$" file2` -eq 0]; then
   echo $line
   fi
 done

它有效，但速度很慢。有没有更快的方法来做到这一点？

score 22 · Accepted Answer

BashFAQ 描述了使用 comm 进行此操作，这是规范正确的方法。

# Subtraction of file1 from file2
# (i.e., only the lines unique to file2)
comm -13 <(sort file1) <(sort file2)

diff 不太适合这个任务，因为它试图对块而不是单独的行进行操作；因此，它必须使用的算法更复杂，内存效率更低。

score 1 · Accepted Answer

如果您只想要在 fileA中而不是 in 中的行B，您可以对文件进行排序，并将它们与 diff 进行比较。

sort A > A.sorted
sort B > B.sorted
diff -u A.sorted B.sorted | grep '^-'

score 0 · Accepted Answer

'diff' 程序是标准的 unix 程序，它查看文件之间的差异。

% cat A
a
b
c
d
% cat B
a
b
e
% diff A B
3,4c3
< c
< d
---
> e

使用简单的 grep 和剪切，可以选择 A 中的行，而不是 B 中的行。请注意，剪切相当简单，行中的空格会将其丢弃……但概念就在那里。

% diff A B | grep '^<' | cut -f2 -d" "
c
d

3 回答 3