8

在“JavaScript:The Good Parts”一书中,它解释了string.match(regexp)如下方法:

match 方法匹配一个字符串和一个正则表达式。它如何做到这一点取决于 g 标志。如果没有 g 标志,则调用 string .match( regexp ) 的结果与调用 regexp .exec( string ) 的结果相同。但是,如果正则表达式具有 g 标志,则它会生成一个包含所有匹配项的数组,但不包括捕获组:

然后书中提供了代码示例:

var text = '<html><body bgcolor=linen><p>This is <b>bold<\/b>!<\/p><\/body><\/html>';
var tags = /[^<>]+|<(\/?)([A-Za-z]+)([^<>]*)>/g;
var a, i;
a = text.match(tags);
for (i = 0; i < a.length; i += 1) {
    document.writeln(('// [' + i + '] ' + a[i]).entityify());
}
// The result is
// [0] <html>
// [1] <body bgcolor=linen>
// [2] <p>
// [3] This is
// [4] <b>
// [5] bold
// [6] </b>
// [7] !
// [8] </p>
// [9] </body>
// [10] </html>

我的问题是我无法理解“但不包括捕获组”。

在上面的代码示例中,html</html>一个捕获组中。为什么它仍然包含在结果数组中?

并且/</html>也是在一个捕获组中。为什么它包含在结果数组中?

您能用上面的代码示例解释“但不包括捕获组”吗?

非常感谢!

4

2 回答 2

10

在上面的代码示例中, html 位于捕获组中。为什么它仍然包含在结果数组中?

因为这是全场比赛。当他说“但不包括捕获组”时,他并不是指完整匹配结果,只是捕获组的内容不会在数组中重复。如果包含捕获组,您会看到

// The result is
// [0] <html>
// [1]           // From the capture group; nothing here
// [2] html      // From the capture group
// [3]           // From the capture group; nothing here
// ...

并且 / in 也在一个捕获组中。为什么它包含在结果数组中?

出于与上述相同的原因:这是整体比赛的一部分,这就是结果;各个捕获组的内容不是。

用一个更简单的例子更容易理解。考虑这段代码:

var s = "test1 test2";
var re = /(test)(.)/g;
var r = s.match(re);
var i;
for (i = 0; i < r.length; ++i) {
    console.log("[" + i + "]: '" + r[i] + "'");
}

因为正则表达式有gflag,所以数组中只包含全匹配,所以我们看到:

[0]:“测试1”
[1]:“测试2”

在每种情况下,数组中的条目都是完全匹配的,其中包括在构成整个表达式的捕获组中匹配的字符。

如果我们删除了g标志但没有更改任何其他内容,我们将获得第一个完整匹配项,然后是两个捕获组的内容:

[0]: 'test1' // 完整匹配,包括来自每个捕获组的内容
[1]: 'test' // 捕获组 0 的内容
[2]: '1' // 捕获组 1 的内容

在那里,第一个条目是完整匹配;然后第二个和第三个是捕获组的内容。注意捕获组的内容

于 2012-06-05T16:48:35.170 回答
0

the g modifier is to apply the regex globally. Without it, the regex matches and returns the first match found. With it, it searches for and matches all occurrences in the string.

于 2012-06-05T16:45:48.393 回答