-1

我正在使用两个互斥的正则表达式来过滤一些非常大的 csv 文件(每个大约 2400 万行)来过滤行。我不能共享正则表达式或文件(不是你想下载它们)。

这个想法是匹配正则表达式 A 的行通过管道传输到文件 A。匹配正则表达式 B 的行通过管道传输到文件 B。

在此过程完成后,我最终得到的是目标文件中大约 500 万行额外的行。

正则表达式保证是互斥的,并且行数是正确的。

该任务在 Amazon EC2 节点上运行。有没有人在云中运行 grep 时遇到过这种问题?

4

1 回答 1

0

改用 awk 似乎可以解决问题。

谢谢巴尔玛!

于 2013-05-31T01:38:17.233 回答