duplicates - 仅当它们在所有这些文件中重复时，我如何才能从六个制表符分隔的文件中输出重复项？

Question

我对 Linux 和编程比较陌生，希望能在管理重复项方面提供一些帮助。我一直在摆弄 uniq、join、diff、grep 并发现一些论坛帖子几乎可以回答我的问题，但不完全是。

我有六个非常大的制表符分隔的 .txt 文件（每个大约 26000 行），它们相似但不相同。我想以某种方式创建一个脚本来检查所有六个文件的内容，并且只将出现在这六个文件中的每一个文件中的行输出到一个新文件。

非常感谢！

*edit 我遇到的问题是 diff/comm 等对于两个或三个以上的文件都没有好处，而且 uniq 似乎也只输出 uniq 行而不是重复的。

score 0 · Accepted Answer

对于名为 f1、f2、f3、f4、f5、f6 的排序输入文件，这应该会产生您正在寻找的输出：

comm -12 f5 f6 | comm -12 f4 - | comm -12 f3 - | comm -12 f2 - | comm -12 f1 - > output

链式通信命令中的 - 将前一个的输出作为其输入。

1 回答 1