regex - 优化while循环读取字典

Question

大家好，这是我在这里的第一个问题，我正在使用一个名为 MElt 的开源程序，它对单词进行词形化（给出引理示例：giving-->give）。MElt 在 linux 上工作，它用 Perl 和 Python 编程。到目前为止，它运行良好，但需要太多时间才能给出结果。我查看了代码并找到了负责此的循环：

while (<LEFFF>) { 
  chomp;
  s/ /_/g;
#  s/(\S)-(\S)/\1_-_\2/g;
  /^(.*?)\t(.*?)\t(.*?)(\t|$)/ || next;
  $form = $1; $cats = $2; $lemma = $3;
  #print "$form \n";
  #print "$cats \n";
  #print "$lemma \n";
  if ($lower_case_lemmas) {
    $lemma = lc($lemma);
  }
  if ($it_mapping) {
    next if ($form =~ /^.+'$/);
    next if ($form eq "dato" && $lemma eq "datare"); # bourrin
    next if ($form eq "stato" && $lemma eq "stare"); # bourrin
    next if ($form eq "stata" && $lemma eq "stare"); # bourrin
    next if ($form eq "parti" && $lemma eq "parto"); # bourrin
    if ($cats =~ /^(parentf|parento|poncts|ponctw)$/) {$cats = "PUNCT"}
    if ($cats =~ /^(PRO)$/) {$cats = "PRON"}
    if ($cats =~ /^(ARTPRE)$/) {$cats = "PREDET"}
    if ($cats =~ /^(VER|ASP|AUX|CAU)$/) {$cats = "VERB"}
    if ($cats =~ /^(CON)$/) {$cats = "CONJ"}
    if ($cats =~ /^(PRE)$/) {$cats = "PREP"}
    if ($cats =~ /^(DET)$/) {$cats = "ADJ"}
    if ($cats =~ /^(WH)$/) {$cats = "PRON|CONJ"}
    next if ($form =~ /^(una|la|le|gli|agli|ai|al|alla|alle|col|dagli|dai|dal|dalla|dalle|degli|dei|del|della|delle|dello|nei|nel|nella|nelle|nello|sul|sulla)$/ && $cats eq "ART");
    next if ($form =~ /^quest[aei]$/ && $cats eq "ADJ");
    next if ($form =~ /^quest[aei]$/ && $cats eq "PRON");
    next if ($form =~ /^quell[aei]$/ && $cats eq "ADJ");
    next if ($form =~ /^quell[aei]$/ && $cats eq "PRON");
    next if ($form =~ /^ad$/ && $cats eq "PREP");
    next if ($form =~ /^[oe]d$/ && $cats eq "CONJ");
  }
  $qmlemma = quotemeta ($lemma);
  for $cat (split /\|/, $cats) {
    if (defined ($cat_form2lemma{$cat}) && defined ($cat_form2lemma{$cat}{$form}) && $cat_form2lemma{$cat}{$form} !~ /(^|\|)$qmlemma(\||$)/) {
      $cat_form2lemma{$cat}{$form} .= "|$lemma";
    } else {
      $cat_form2lemma{$cat}{$form} = "$lemma";
      $form_lemma_suffs = "@".$form."###@".$lemma;
      while ($form_lemma_suffs =~ s/^(.)(.+)###\1(.+)/\2###\3/) {
    if (length($2) <= 8) {
      $cat_formsuff_lemmasuff2count{$cat}{$2}{$3}++;
      if ($multiple_lemmas) {
        $cat_formsuff_lemmasuff2count{$cat}{$2}{__ALL__}++;
      }
    }
      }
    }
  }
}

变量 LEFFF 是一个由 490489 行组成的字典。所以循环将单词与所有字典行一一进行比较。这真的太多了。任何想法如何优化这个？谢谢你。医学。

score 0 · Accepted Answer

尝试将此行更改/^(.*?)\t(.*?)\t(.*?)(\t|$)/ || next;为：

/^([^\t]++)\t([^\t]++)\t([^\t]++)(\t|$)/ || next;

对于下一个正则表达式，删除所有不需要的捕获括号。

/^(parentf|parento|poncts|ponctw)$/至

/^parent[fo]|ponct[sw]$/   or why not   /^p(?>arent[fo]|onct[sw])$/

/^(una|la|le|gli|agli|ai|al|alla|alle|col|dagli|dai|dal|dalla|dalle|degli|dei|del|della|delle|dello|nei|nel|nella|nelle|nello|sul|sulla)$/至

/^(?>una|l[ae]|a(?>i|l(?>l[ae])?)|col|d(?>ello|[ae](?>i|l(?l[ae])?|gli))|ne(?>i|l(?>ll[aeo])?)|sul(?>la)?)$/

（注意：您可以通过重新排序来改进这一行，将最常见的行列式/articolo 放在开头）

尝试更改此行：

while ($form_lemma_suffs =~ s/^(.)(.+)###\1(.+)/\2###\3/)

经过

while ($form_lemma_suffs =~ s/^(.)([^#]++)###\1(.++)/\2###\3/)

您可以反转条件：

next if ($form =~ /^quest[aei]$/ && $cats eq "ADJ");

至

next if ($cats eq "ADJ" && $form =~ /^quest[aei]$/ );

（实验性）您可以替换这两行：

next if ($form eq "stato" && $lemma eq "stare"); # bourrin
next if ($form eq "stata" && $lemma eq "stare"); # bourrin

经过

next if ($lemma eq "stare" && ($form eq "stato" || $form eq "stata"));

重要提示：使用 perl，您可以编译您的正则表达式，它在您的情况下很有用，因为您在 while 循环中使用相同的正则表达式。如果您这样做，请不要忘记将正则表达式定义放在循环之外！例子：

my $regex = qr/^parent[fo]|ponct[sw]$/;
while (<LEFFF>) {
...
if ($cats =~ $regex) {$cats = "PUNCT"}

regex - 优化while循环读取字典

1 回答 1

Related

Reference