我将与 Grep 一起研究一个非常大的数据集。几乎很多日志。我不确定使用一些有时疯狂的复杂正则表达式对其进行 grep 是否更好,或者尝试进行一些简单的 grep 调用并每次返回一个越来越小的数据集。我不是最擅长正则表达式,但我能够将我需要的正则表达式存储在日志搜索工具中,我只是在寻找哪种方法可能是最好的。
编辑:
抱歉,我忘了添加在我上一篇文章中针对不同 grep 问题的信息。这些文件是日志,它们可能很小,也可能很大,到目前为止我正在测试的文件是 1.9gb 所以我认为这是一个相当不错的大小,问题是日志会从小开始,然后它们会增长并且日志会在某个时候轮转,让我们说每天,但如果我像我的 Apache 访问日志那样做,我会用 grep 查询主页的加载频率,或者用 grep 查询页面加载时间,这样我就可以取平均值。