linux - 从文件中提取包含大量字符串之一的行

Question

假设我有一个包含 10,000,000 行的文件 DATA。我有另一个包含 100,000 个字符串的文件 IDS。我想从 DATA 中提取所有包含 IDS 字符串之一的行。另一个条件是文件之间存在 1:1 的关系，因此每个 ID 有一行 DATA，每个 DATA 有一个 ID。

使用标准 linux 命令行实用程序执行此操作的最有效、最简单的方法是什么？

到目前为止我的想法：

score 3 · Accepted Answer

grep -F -f IDS DATA

不要错过-F：它可以防止将 IDS 解释为正则表达式，并启用更高效的 Aho-Korasick 算法。

score 2 · Accepted Answer

如果 IDS 包含您需要在 DATA 中找到的确切字符串，每行一个字符串，请尝试使用

grep --file=IDS DATA > results

2 回答 2