20

我正在尝试在 JavaScript 中评论正则表达式。

似乎有很多关于如何使用正则表达式从代码中删除注释的资源,但实际上并没有如何在 JavaScript 中注释正则表达式以便它们更容易理解。

4

5 回答 5

20

不幸的是,JavaScript 没有像其他语言那样为正则表达式文字提供详细模式。不过,您可能会觉得这很有趣

代替任何外部库,您最好的选择就是使用普通字符串并注释:

var r = new RegExp(
    '('      + //start capture
    '[0-9]+' + // match digit
    ')'        //end capture
); 
r.test('9'); //true
于 2013-03-17T16:39:06.720 回答
8

虽然 Javascript 本身不支持多行和带注释的正则表达式,但构造完成相同事情的东西很容易——使用一个函数,该函数接受一个(多行,带注释的)字符串并从该字符串返回一个正则表达式,没有评论和换行符。

下面的代码片段模仿了其他风格x(“ extended ”)标志的行为,它忽略了模式中的所有空白字符以及注释,用 表示#

function makeExtendedRegExp(inputPatternStr, flags) {
  // Remove everything between the first unescaped `#` and the end of a line
  // and then remove all unescaped whitespace
  const cleanedPatternStr = inputPatternStr
    .replace(/(^|[^\\])#.*/g, '$1')
    .replace(/(^|[^\\])\s+/g, '$1');
  return new RegExp(cleanedPatternStr, flags);
}


// The following switches the first word with the second word:
const input = 'foo bar baz';
const pattern = makeExtendedRegExp(String.raw`
  ^       # match the beginning of the line
  (\w+)   # 1st capture group: match one or more word characters
  \s      # match a whitespace character
  (\w+)   # 2nd capture group: match one or more word characters
`);
console.log(input.replace(pattern, '$2 $1'));

通常,要在 Javascript 字符串中表示反斜杠,必须对每个文字反斜杠进行双重转义,例如str = 'abc\\def'. 但是正则表达式经常使用很多反斜杠,而双重转义会使模式的可读性大大降低,因此在编写带有很多反斜杠的 Javascript 字符串时,最好使用String.raw模板文字,它允许单个类型的反斜杠实际表示文字反斜杠,没有额外的转义。

就像使用标准x修饰符一样,要匹配#字符串中的实际值,只需先将其转义,例如

foo\#bar     # comments go here

// this function is exactly the same as the one in the first snippet

function makeExtendedRegExp(inputPatternStr, flags) {
  // Remove everything between the first unescaped `#` and the end of a line
  // and then remove all unescaped whitespace
  const cleanedPatternStr = inputPatternStr
    .replace(/(^|[^\\])#.*/g, '$1')
    .replace(/(^|[^\\])\s+/g, '$1');
  return new RegExp(cleanedPatternStr, flags);
}


// The following switches the first word with the second word:
const input = 'foo#bar baz';
const pattern = makeExtendedRegExp(String.raw`
  ^       # match the beginning of the line
  (\w+)   # 1st capture group: match one or more word characters
  \#      # match a hash character
  (\w+)   # 2nd capture group: match one or more word characters
`);
console.log(input.replace(pattern, '$2 $1'));

请注意,要匹配文字空格字符(而不仅仅是任何空白字符),x在任何环境(包括上述环境)中使用标志时,您必须先转义空格\,例如:

^(\S+)\ (\S+)   # capture the first two words

如果您想经常匹配空格字符,这可能会有点乏味并使模式更难阅读,类似于双转义反斜杠不是非常理想的。允许未转义的空格字符的一种可能(非标准)修改是仅去除一行开头和结尾的空格,以及#注释前的空格:

function makeExtendedRegExp(inputPatternStr, flags) {
  // Remove the first unescaped `#`, any preceeding unescaped spaces, and everything that follows
  // and then remove leading and trailing whitespace on each line, including linebreaks
  const cleanedPatternStr = inputPatternStr
    .replace(/(^|[^\\]) *#.*/g, '$1')
    .replace(/^\s+|\s+$|\n/gm, '');
  console.log(cleanedPatternStr);
  return new RegExp(cleanedPatternStr, flags);
}


// The following switches the first word with the second word:
const input = 'foo bar baz';
const pattern = makeExtendedRegExp(String.raw`
  ^             # match the beginning of the line
  (\w+) (\w+)   # capture the first two words
`);
console.log(input.replace(pattern, '$2 $1'));

于 2018-12-25T19:18:24.440 回答
4

在其他几种语言(尤其是 Perl)中,有特殊x标志。设置后,正则表达式会忽略其中的任何空格和注释。遗憾的是,javascript 正则表达式不支持该x标志。

缺乏语法,利用可读性的唯一方法是约定。我的是在棘手的正则表达式之前添加一个注释,包含它,就好像你有 x 标志一样。例子:

/*
  \+?     #optional + sign
  (\d*)   #the integeric part
  (       #begin decimal portion
     \.
     \d+  #decimal part
  )
 */
var re = /\+?(\d*)(\.\d+)/;

对于更复杂的示例,您可以在此处此处查看我使用该技术所做的工作。

于 2013-03-17T16:43:12.507 回答
2

在 2021 年,我们可以使用应用了String.raw()的模板文字来做到这一点。

VerboseRegExp `
    (
        foo*                  // zero or more foos
        (?: bar | baz )       // bar or baz
        quux?                 // maybe a quux
    )
    \s \t \r \n \[ \] \/ \`   // invisible whitespace is ignored ...
    [ ]                       // ... unless you put it in a character class
`
`gimy`                        // flags go here

// returns the RegExp /(foo*(?:bar|baz)quux?)\s\t\r\n\[\]\/\`[ ]/gimy

的实施VerboseRegExp

const VerboseRegExp = (function init_once () {
    const cleanupregexp = /(?<!\\)[\[\]]|\s+|\/\/[^\r\n]*(?:\r?\n|$)/g
    return function first_parameter (pattern) {
        return function second_parameter (flags) {
            flags = flags.raw[0].trim()
            let in_characterclass = false
            const compressed = pattern.raw[0].replace(
                cleanupregexp,
                function on_each_match (match) {
                    switch (match) {
                        case '[': in_characterclass = true; return match
                        case ']': in_characterclass = false; return match
                        default: return in_characterclass ? match : ''
                    }
                }
            )
            return flags ? new RegExp(compressed, flags) : new RegExp(compressed)
        }
    }
})()

请参阅JavaScript 中的详细正则表达式了解其.raw[0]作用。

于 2021-11-11T16:24:08.897 回答
0

我建议您在正则表达式的行上方添加一个常规注释以进行解释。

你会有更多的自由。

于 2013-03-17T16:38:01.570 回答