regex - 如何将一行中的单词删除到特定字符模式...正则表达式

Question

我想要文件中一行中“测试”单词之后的单词。实际上意味着，我不希望这些词出现在“测试”词之前。

就是这样的模式……

例如：

输入：

***This is a*** test page.

***My*** test work of test is complete.

输出：

test page.

work of test is complete.

score 15 · Accepted Answer

使用 sed：

sed -n 's/^.*test/test/p' input

如果要打印不匹配的行，请保持不变：

sed 's/^.*test/test/' input

上面的将（贪婪地）删除所有文本，直到最后test一行。如果要删除到第一个测试，请使用 potong 的建议：

sed -n 's/test/&\n/;s/.*\n//p' input

score 5 · Accepted Answer

一个纯粹的bash单线：

while read x; do [[ $x =~ test.* ]] && echo ${BASH_REMATCH[0]}; done <infile

输入：infile

This is a test page.
My test work of test is complete.

输出：

test page.
test work of test is complete.

它从 file 读取所有行infile，检查该行是否包含字符串test，然后打印该行的其余部分（包括test）。

在sed中相同：

~~sed's/. (test. )/\1/' infile~~（哎呀！这是错误的！.*是贪婪的，所以它从第二个示例行中削减了太多）。这很好用：

sed -e 's/\(test.*\)/\x03&/' -e 's/.*\x03//' infile

我做了一些速度测试（对于原始（错误）sed版本）。结果是对于小文件，bash解决方案的性能更好。对于较大的文件， sed更好。我也试过这个awk版本，它更适合大文件：

awk 'match($0,"test.*"){print substr($0,RSTART)}' infile

在perl中类似：

perl -ne 's/(.*?)(test.*)/$2/ and print' infile

我使用了两行示例输入文件，并且每次都复制它。每个版本运行 1000 次。结果是：

  Size |  bash  |  sed   |  awk   |  perl
   [B] |  [sec] |  [sec] |  [sec] |  [sec]
------------------------------------------
    55 |  0.420 | 10.510 | 10.900 | 17.911
   110 |  0.460 | 10.491 | 10.761 | 17.901
   220 |  0.800 | 10.451 | 10.730 | 17.901
   440 |  1.780 | 10.511 | 10.741 | 17.871
   880 |  4.030 | 10.671 | 10.771 | 17.951
  1760 |  8.600 | 10.901 | 10.840 | 18.011
  3520 | 17.691 | 11.460 | 10.991 | 18.181
  7040 | 36.042 | 12.401 | 11.300 | 18.491
 14080 | 72.355 | 14.461 | 11.861 | 19.161
 28160 |145.950 | 18.621 | 12.981 | 20.451
 56320 |        |        | 15.132 | 23.022
112640 |        |        | 19.763 | 28.402
225280 |        |        | 29.113 | 39.203
450560 |        |        | 47.634 | 60.652
901120 |        |        | 85.047 |103.997

regex - 如何将一行中的单词删除到特定字符模式...正则表达式

2 回答 2

Related

Reference