我正在处理各种文章,我遇到的问题是各种作者使用各种字符作为标点符号。
例如,我目前正在使用的几个文档具有以下字符:
\x91
\x92
\x{2018}
\x{2019}
所有这些字符都代表一个简单的引用'
。
我想做的是简化文章,使它们都具有相同的格式样式。
有谁知道将这些字符和类似字符(如双引号、破折号等)转换为简单 ASCII 字符的模块或方法?
我目前正在做类似的事情:
sub fix_chars_in_document {
my $document = shift;
$document =~ s/\xa0/ /g;
$document =~ s/\x91/'/g;
$document =~ s/\x92/'/g;
$document =~ s/\x93/"/g;
$document =~ s/\x94/"/g;
$document =~ s/\x97/-/g;
$document =~ s/\xab/"/g;
$document =~ s/\xa9//g;
$document =~ s/\xae//g;
$document =~ s/\x{2018}/'/g;
$document =~ s/\x{2019}/'/g;
$document =~ s/\x{201C}/"/g;
$document =~ s/\x{201D}/"/g;
$document =~ s/\x{2022}//g;
$document =~ s/\x{2013}/-/g;
$document =~ s/\x{2014}/-/g;
$document =~ s/\x{2122}//g;
return $document ;
}
但这非常困难,因为我必须手动查找字符并替换它们。