5

我正在寻找正则表达式来验证和解析众所周知的文本,这是一种用于传输空间数据的格式,如下所示:

POLYGON((51.124 -3.973, 51.1 -3.012, ....))

或者

MULTIPOLYGON(((POLYGON((51.124 -3.973, 51.1 -3.012, ....)),POLYGON((50.14 -13.973, 51.1 -13.012, ....))

在其他变体中。

这里有一个很好的答案:Parsing a WKT-file which uses the regex:

\d+(?:\.\d*)?

从其他地方我也看到

\d*\.\d+|\d+

(\d*\.)?\d+

这些似乎都做同样的事情,但它让我想知道这 3 个正则表达式的相对工作原理,以及是否有任何性能问题或引擎盖下的微妙之处需要注意。

需要明确的是,我知道有用于解析各种语言的 WKT 的库。我的问题纯粹是关于数字提取正则表达式的相对行为。

4

1 回答 1

6

这取决于您需要允许的数字格式,例如:

格式 1:22
 格式 2:22.2
 格式 3:.2
 格式 4:2。
  • 第一个模式\d+(?:\.\d*)?匹配 1,2,4
  • 第二个模式\d*\.\d+|\d+匹配 1,2,3
  • 第三个模式(\d*\.)?\d+匹配 1,2,3 (并且有一个不需要的捕获组)

注意:如果数字是整数,模式 2 和 3 的成功速度比第一个慢,因为它们必须匹配直到点的所有数字,回溯到开始并再次重试相同的数字。(见下面的架构)

字符串 | 图案 | 状态
-----+----------------+---------------------------- --
123 | \d*\.\d+|\d+ | 开始
1 23 |  \d* \.\d+|\d+ | 好的
12 3 |  \d* \.\d+|\d+ | 好的
123   |  \d* \.\d+|\d+ | 好的
123   | \d* \. \d+|\d+ | 失败 => 回溯
12 3 | \d* \. \d+|\d+ | 失败 => 回溯
1 23 | \d* \. \d+|\d+ | 失败 => 回溯
123 | \d*\.\d+ | \d+ | 转到下一个选项
1 23 | \d*\.\d+| \d+   | 好的
12 3 | \d*\.\d+| \d+   | 好的
123   | \d*\.\d+| \d+   | 好的 => 成功

如果要匹配这四种情况,可以使用:

\.\d+|\d+(?:\.\d*)?

(+) 如果数字不以点开头,第一个替代方案立即失败,第二个替代方案将匹配所有其他情况。回溯被限制在最低限度。
(-) 如果您有几个以点开头的数字,则第一个替代方案将被测试并且每次都会失败。然而,第一种选择很快就失败了。(换句话说,出于同样的原因)。在这种情况下,最好使用\d+(?:\.\d*)?|\.\d+

显然,如果你想支持负值,你需要添加-?

-?(?:\.\d+|\d+(?:\.\d*)?)
于 2014-03-12T16:37:13.097 回答