9

我可以计算正则表达式本身匹配的每个不同字符吗?

假设正则表达式看起来像/>(.*)[^a]+/

我可以记p下该组捕获的字符串中的字母的出现次数(.*)吗?

4

6 回答 6

5

在正则表达式之外:

my $p_count = map /p/g, />(.*)[^a]/;

自给自足:

local our $p_count;
/
   (?{ 0 })
   >
   (?: p (?{ $^R + 1 })
   |   [^p]
   )*
   [^a]
   (?{ $p_count = $^R; })
/x;

在这两种情况下,您都可以轻松扩展它以计算所有字母。例如,

my %counts;
if (my ($seq = />(.*)[^a]/) {
   ++$counts{$_} for split //, $seq;
}

my $p_count = $counts{'p'};
于 2012-08-10T15:26:54.397 回答
5

您必须捕获匹配的字符串并单独处理它。

这段代码演示

use strict;
use warnings;

my $str = '> plantagenetgoosewagonattributes';

if ($str =~ />(.*)[^a]+/) {
  my $substr = $1;
  my %counts;
  $counts{$_}++ for $substr =~ /./g;
  print "'$_' - $counts{$_}\n" for sort keys %counts;
}

输出

' ' - 1
'a' - 4
'b' - 1
'e' - 4
'g' - 3
'i' - 1
'l' - 1
'n' - 3
'o' - 3
'p' - 1
'r' - 1
's' - 1
't' - 5
'u' - 1
'w' - 1
于 2012-08-10T14:45:45.020 回答
3

按照 Borodin 的解决方案,这里是一个纯 bash 的解决方案:

let count=0  
testarray=(a b c d e f g h i j k l m n o p q r s t u v w x y z) 

string="> plantagenetgoosewagonattributes"                 # the string 
pattern=">(.*)[^a]+"                                   # regex pattern

limitvar=${#testarray[@]}                                  #array length

[[ $string =~ $pattern ]] && 
( while [ $count -lt $limitvar ] ; do sub="${BASH_REMATCH[1]//[^${testarray[$count]}]}" ; echo "${testarray[$count]} = ${#sub}" ; ((count++)) ; done )

从 bash 3.0 开始,bash 引入了可以通过 BASH_REMATCH[n] 访问的捕获组。

解决方案将字符声明为数组[在复杂情况下检查declare -a数组声明]。单个字符计数不需要计数变量,不需要 while 构造,而是字符的变量而不是数组。

如果您在上面的代码中包含范围,则此数组声明会执行确切的操作。

testarray=(`echo {a..z}`)

一个if 循环的介绍将解释0计数字符的显示。我想让解决方案尽可能简单。

于 2012-08-16T10:02:07.350 回答
3

AFAIK,你不能。您只能通过括号捕获某些组,然后检查该组捕获的数据长度。

于 2012-08-10T14:30:28.210 回答
2

有实验性的,不要使用我,(?{ code })构造......

来自man perlre

"(?{ code })" 警告:这个扩展的正则表达式功能被认为是实验性的,可能会在没有通知的情况下进行更改。由于正则表达式引擎中未来优化的影响,执行的具有副作用的代码在不同版本之间的执行可能不同。

如果那没有吓跑你,这里有一个例子,计算“p”的数量

my $p_count;
">pppppbca" =~ /(?{ $p_count = 0 })>(p(?{$p_count++})|.)*[^a]+/;
print "$p_count\n";
于 2012-08-10T15:08:51.160 回答
0

首先说明:由于 * 的贪婪,最后一个[^a]+永远不会匹配多个非字符 - 即,您不妨放弃+.

正如@mvf 所说,您需要捕获通配符匹配的字符串才能计算其中的字符。Perl 正则表达式无法返回特定组匹配次数的计数——引擎可能会保留该数字以支持该{,n}机制,但您无法获得它。

于 2012-08-10T15:03:04.293 回答