2

我的正则表达式受损,所以我为此道歉,并想提前感谢任何可以帮助我的人。

我的文字如下:

real text that i want to keep i e 2 2 1 i h i i i E h i L h R 9 more real text
i e 1 i tr L h R 1 i L ? i j 1 more real text that i want to keep d i j 0 etc...

您可以看到出现的“垃圾”文本部分 - 这些是我要删除的内容。我不一定要寻找 100% 的准确度,但我想要一个可以摆脱大部分这些部分的正则表达式。我认为垃圾文本是任何有四个或更多连续出现的一个或两个字符,后跟一个空格的部分。

如标签中所述,我正在使用 c#。再次感谢。

4

2 回答 2

3

像这样的东西?

\b(.{1,2}\s){4,}

如果您知道允许使用哪些字符,您显然可以将句号/句点替换为更精确的匹配。

于 2012-04-25T13:41:06.007 回答
2

只是另一个正则表达式解决方案:(\s+(\S{1,2}(?=\s))){2,}

于 2012-04-25T13:48:55.580 回答