每次我需要使用正则表达式时,我意识到我已经忘记了关于它们的一切。
我正在尝试匹配所有只有小写字母数字字符且没有双倍字母数字字符且长度也在 {10,12} 个字符内的单词。
现在,要弄清楚一个字符后面是否跟着同一个字符,我会做(.)\1
. 要查看一个单词是否在 10 到 12 个字符之内,我会这样做{10,12}
。要只抓取小写字母和数字,我会使用[0-9a-z]
.
但是我如何将它们链接在一起呢?
干杯!
PS:这将在相当大的 NLP xml (100mb+) 上运行,所以如果正则表达式不是最慢的替代方案,我将不胜感激。