我一直在寻找问题的答案,但找不到满足我需求的解决方案。
我有一个大文本文件(4GB),它是来自代理的 access.log 文件。
我有另一个包含 7000 行的文件,其中包含一些域地址或部分 url 以在我的日志文件中搜索。
问题是要在日志文件中搜索我的 7000 个术语,需要很长时间。
我想减少使用多线程或其他东西的时间。
但我以前从未编写过这样的东西:-/
你能帮我开始吗?
提前致谢!
我一直在寻找问题的答案,但找不到满足我需求的解决方案。
我有一个大文本文件(4GB),它是来自代理的 access.log 文件。
我有另一个包含 7000 行的文件,其中包含一些域地址或部分 url 以在我的日志文件中搜索。
问题是要在日志文件中搜索我的 7000 个术语,需要很长时间。
我想减少使用多线程或其他东西的时间。
但我以前从未编写过这样的东西:-/
你能帮我开始吗?
提前致谢!
从概念上讲(不特定于 Perl),我会使用这样的东西:
优点:
另外,尽量让每个线程保持自己的匹配,不要将它们同步到同一个位置——这会产生竞争条件。如果您需要同步线程,请在上述步骤 (4) 和 (5) 之间进行。
不幸的是,我的 Perl 非常生锈,但在您得到更好的答案之前,我将发布此内容,希望它有用。