bash - Grepping一个巨大的文件（80GB）有什么办法可以加快速度？

Question

 grep -i -A 5 -B 5 'db_pd.Clients'  eightygigsfile.sql

这已经在一个相当强大的 linux 服务器上运行了一个小时，否则它不会超载。grep的任何替代品？关于我的语法有什么可以改进的，（egrep，fgrep 更好？）

该文件实际上位于与挂载到另一台服务器共享的目录中，但实际的磁盘空间是本地的，所以应该没有任何区别？

grep 占用了高达 93% 的 CPU

score 182 · Accepted Answer

这里有几个选项：

1) 为您的 grep 命令添加前缀LC_ALL=C以使用 C 语言环境而不是 UTF-8。

2）使用fgrep是因为您正在搜索固定字符串，而不是正则表达式。

3）删除-i选项，如果你不需要它。

所以你的命令变成：

LC_ALL=C fgrep -A 5 -B 5 'db_pd.Clients' eightygigsfile.sql

如果将文件复制到 RAM 磁盘也会更快。

score 40 · Accepted Answer

如果你有一个多核 CPU，我真的会推荐GNU parallel。要并行使用 grep 大文件：

< eightygigsfile.sql parallel --pipe grep -i -C 5 'db_pd.Clients'

根据您的磁盘和 CPU，读取更大的块可能会更快：

< eightygigsfile.sql parallel --pipe --block 10M grep -i -C 5 'db_pd.Clients'

您的问题并不完全清楚，但其他选项grep包括：

score 10 · Accepted Answer

一些微不足道的改进：

score 3 · Accepted Answer

两条攻击线：

score 1 · Accepted Answer

< eightygigsfile.sql parallel -k -j120% -n10 -m grep -F -i -C 5 'db_pd.Clients'

如果您需要搜索多个字符串， grep -f strings.txt 可以节省大量时间。以上是我目前正在测试的内容的翻译。-j 和 -n 选项值似乎最适合我的用例。-F grep 也有很大的不同。

score 0 · Accepted Answer

0

与 grep 相比，它提供了更好的结果。

于 2021-08-25T08:10:15.420 回答

6 回答 6