2

我正在尝试创建一个 C#/WPF 解析器。我对正则表达式有很好的整体理解,因为这不是我的第一个解析器(可能也不会是我的最后一个)

但是,现在我有一个非常奇怪的行为。这是我要解析的内容(注意:删除了实际数据,我只是按照与我的结构相同的结构创建了一个字符串):

aaaaa bbbbb 50 c blabla

我的应用程序将收到我只想拆分和识别的行。由于某种原因,空格的数量是可变的(一个在 aaaa 和 bbbb 之间,两个在 bbbb 和 50... 之间)。(在人们告诉我之前请注意:我不会使用 string.Split()。因为我有很多不同的线结构,我应该总是从中得到相同的数据。只是拆分它会让我无法识别每个部分意思)

我当前的测试正则表达式有点简单:

(\S*)[\s*](\S*)[\s*](\S*)[\s*](p|c)(.*)

现在,这就是发生的事情。当 bbbbb 和 50 之间只有一个空格时,正则表达式会正确解析(注意:我使用http://www.myregextester.com/index.php来测试我的正则表达式)

$matches Array:
(
    [0] => Array
        (
            [0] => aaaaa bbbbb 50 c  blabla
        )

    [1] => Array
        (
            [0] => aaaaa
        )

    [2] => Array
        (
            [0] => bbbbb
        )

    [3] => Array
        (
            [0] => 50
        )

    [4] => Array
        (
            [0] => c
        )

    [5] => Array
        (
            [0] =>   blabla
        )

)

如果 bbbb 和 50 之间有两个空格,则会发生以下情况:

$matches Array:
(
    [0] => Array
        (
            [0] => bbbbb  50 c blabla
        )

    [1] => Array
        (
            [0] => bbbbb
        )

    [2] => Array
        (
            [0] => 
        )

    [3] => Array
        (
            [0] => 50
        )

    [4] => Array
        (
            [0] => c
        )

    [5] => Array
        (
            [0] =>  blabla
        )

)

现在我知道我可以轻松地从行中删除不需要的空格(这是我目前所做的)。无论如何,我都渴望了解我在那里错过了什么:为什么当我添加一个额外的空格时会发生这种情况,应该用我添加的 [\s*] 之一来识别?

谢谢!

4

4 回答 4

5

[\s*]没有做你所期望的。方括号表示一个字符组,这意味着它将匹配一个\s(空格)或文字 *的字符。

只需删除这些括号即可获得预期的行为:匹配\s(空格)0次或更多次:

(\S*)\s*(\S*)\s*(\S*)\s*(p|c)(.*)

编辑:杰西的评论也很有价值:除非某些组是真正可选的,否则您可能想要使用+而不是*量词。

于 2013-07-09T14:54:55.640 回答
3

每当我在正则表达式中看到星星时,我都会畏缩。星匹配零个或多个,真的会让你绊倒!*替换with的所有实例,+然后重试。当然,除非其中一些分组确实是可选的。

编辑:其他答案非常正确地指出您使用的是字符组,但我的观点仍然存在:当心*

于 2013-07-09T14:54:34.117 回答
2

您需要替换[\s*]\s+.

[\s*]表示“一个空格字符或一个星号”。

\s+表示“一个或多个空白字符”,这是您想要的。

字符类是很多人都搞错的东西。

于 2013-07-09T14:53:53.837 回答
-2

[\s*] 有不同的含义,因为它在括号内 [\s]+ 会表现出您想要的行为,或者 [\s]{1,} 此表达式将匹配空白字符 1 次或多次。您还需要请记住,根据您使用的功能,您可能需要启用“g”标志,它是全局标志,以使您的正则表达式能够匹配您希望解析的所有出现的模式,否则它可能只解析第一个匹配项。括号否定大多数字符类并将大多数修饰符转换为文字,除了少数例外访问 MDN https://developer.mozilla.org/en-US/docs/Web/JavaScript/Guide/Regular_Expressions查看您对正则表达式如何在内部表现的知识正则表达式上的括号或 PHP APIhttp://php.net/manual/en/reference.pcre.pattern.syntax.php

于 2017-12-30T18:37:14.617 回答