我的正则表达式受损,所以我为此道歉,并想提前感谢任何可以帮助我的人。
我的文字如下:
real text that i want to keep i e 2 2 1 i h i i i E h i L h R 9 more real text
i e 1 i tr L h R 1 i L ? i j 1 more real text that i want to keep d i j 0 etc...
您可以看到出现的“垃圾”文本部分 - 这些是我要删除的内容。我不一定要寻找 100% 的准确度,但我想要一个可以摆脱大部分这些部分的正则表达式。我认为垃圾文本是任何有四个或更多连续出现的一个或两个字符,后跟一个空格的部分。
如标签中所述,我正在使用 c#。再次感谢。