我可以计算正则表达式本身匹配的每个不同字符吗?
假设正则表达式看起来像/>(.*)[^a]+/
我可以记p
下该组捕获的字符串中的字母的出现次数(.*)
吗?
在正则表达式之外:
my $p_count = map /p/g, />(.*)[^a]/;
自给自足:
local our $p_count;
/
(?{ 0 })
>
(?: p (?{ $^R + 1 })
| [^p]
)*
[^a]
(?{ $p_count = $^R; })
/x;
在这两种情况下,您都可以轻松扩展它以计算所有字母。例如,
my %counts;
if (my ($seq = />(.*)[^a]/) {
++$counts{$_} for split //, $seq;
}
my $p_count = $counts{'p'};
您必须捕获匹配的字符串并单独处理它。
这段代码演示
use strict;
use warnings;
my $str = '> plantagenetgoosewagonattributes';
if ($str =~ />(.*)[^a]+/) {
my $substr = $1;
my %counts;
$counts{$_}++ for $substr =~ /./g;
print "'$_' - $counts{$_}\n" for sort keys %counts;
}
输出
' ' - 1
'a' - 4
'b' - 1
'e' - 4
'g' - 3
'i' - 1
'l' - 1
'n' - 3
'o' - 3
'p' - 1
'r' - 1
's' - 1
't' - 5
'u' - 1
'w' - 1
按照 Borodin 的解决方案,这里是一个纯 bash 的解决方案:
let count=0
testarray=(a b c d e f g h i j k l m n o p q r s t u v w x y z)
string="> plantagenetgoosewagonattributes" # the string
pattern=">(.*)[^a]+" # regex pattern
limitvar=${#testarray[@]} #array length
[[ $string =~ $pattern ]] &&
( while [ $count -lt $limitvar ] ; do sub="${BASH_REMATCH[1]//[^${testarray[$count]}]}" ; echo "${testarray[$count]} = ${#sub}" ; ((count++)) ; done )
从 bash 3.0 开始,bash 引入了可以通过 BASH_REMATCH[n] 访问的捕获组。
解决方案将字符声明为数组[在复杂情况下检查declare -a
数组声明]。单个字符计数不需要计数变量,不需要 while 构造,而是字符的变量而不是数组。
如果您在上面的代码中包含范围,则此数组声明会执行确切的操作。
testarray=(`echo {a..z}`)
一个if
循环的介绍将解释0
计数字符的显示。我想让解决方案尽可能简单。
AFAIK,你不能。您只能通过括号捕获某些组,然后检查该组捕获的数据长度。
有实验性的,不要使用我,(?{ code })
构造......
来自man perlre
:
"(?{ code })" 警告:这个扩展的正则表达式功能被认为是实验性的,可能会在没有通知的情况下进行更改。由于正则表达式引擎中未来优化的影响,执行的具有副作用的代码在不同版本之间的执行可能不同。
如果那没有吓跑你,这里有一个例子,计算“p”的数量
my $p_count;
">pppppbca" =~ /(?{ $p_count = 0 })>(p(?{$p_count++})|.)*[^a]+/;
print "$p_count\n";
首先说明:由于 * 的贪婪,最后一个[^a]+
永远不会匹配多个非字符 - 即,您不妨放弃+
.
正如@mvf 所说,您需要捕获通配符匹配的字符串才能计算其中的字符。Perl 正则表达式无法返回特定组匹配次数的计数——引擎可能会保留该数字以支持该{,n}
机制,但您无法获得它。