0

我想读入一个文件,格式为:“string1 string2 string3”并用以下规则替换几个字符(但每把椅子都应该替换一次):tsch=> tch, ch> h , ki=> ky (但如果 ki 位于“单词”的末尾)所以“tschaiki”应该变得 tchaiky 而不是 thaiky (这在使用 for 循环或几个单个替换命令时发生)

我知道这个问题之前被问过,并通过在 perl 中创建一个哈希来解决。

$line=<>
my %replace =(j=> "y", ss=> "s", u=> "ou", tsch=> "ch"); #short versions of the rules
my $regex = join "|", keys %replace;    

$regex = qr/$regex/;
$line=~s/($regex)/$replace{$1}/g;

到目前为止,这对我也有效,但我希望某些字符只能在字符串末尾替换。但这会导致问题:我已经用第二个正则表达式和哈希扩展了之前的代码,仅用于结尾:

 my %replace_end =(ia=> "iya", ki=> "ky",ei=> "ey" );
 my $regex_end = join "|", keys %replace_end;
 $regex_end = qr/$regex_end/; 
 $line=~s/($regex_end)$/$replace_end{$1}/g;  # saying just to substitute at the end 

我的整个代码如下,但是无论是异常还是结尾都被忽略了(我认为没有文件处理和while循环的代码确实有效):

#!/usr/bin/perl
use strict;
use warnings;

open(INP,"<:utf8","dt_namen.txt"); 
open(OUT,">:utf8","dt_zu_engl.txt");

my %replace =(j=> "y", ss=> "s", tsch=> "ch", sch => "sh", c => "k", J="Y", Ss=>"s"); 
 my $regex = join "|", keys %replace;  
 $regex = qr/$regex/;

 my %replace_end =(ki=> "ky",ei=> "ey" );
 my $regex_end = join "|", keys %replace_end;
 $regex_end = qr/$regex_end/; 

while(my $line= <INP>){
 $line=~s/($regex)/$replace{$1}/g;
 $line=~s/($regex_end)$/$replace_end{$1}/g;  # saying just to substitute at the end 
 print $line;
 print OUT "$line";
}
close INP;
close OUT;
4

1 回答 1

3

您的代码存在一个潜在问题,即替换顺序未定义。如果两个模式在同一位置匹配,则不知道哪一个会匹配。这完全取决于正则表达式中哪个先出现,并且哈希没有定义的顺序,所以现在没有保证行为。

sort通过在构造正则表达式时执行 a 来解决此问题:

my $regex = join "|", sort {length($b) <=> length($a)} keys %replace;

这将按长度降序对术语进行排序,因此您将确保始终首先匹配最长的术语。

更新:仅在字符串末尾替换,试试这个:

my $regex_end = join "|", map { qr/$_$/ } keys %replace_end;

它在每个术语的末尾放置一个$(匹配字符串的末尾)。

或者,如果您的意思是,只替换单词的末尾,请执行以下操作:

my $regex_end = join "|", map { qr/$_\b/ } keys %replace_end;
于 2013-04-29T10:52:08.653 回答