我遇到了文本处理问题。我有一篇文章,我想知道有多少“真实”的单词。
这就是我所说的“真实”。文章通常包含各种标点符号,如破折号,逗号,点等。我想知道有多少单词,跳过“ -
”破折号和“ ,
”逗号带空格等。
我试过这样做:
my @words = split ' ', $article;
print scalar @words, "\n";
但这包括各种标点符号,其中包含空格作为单词。
所以我正在考虑使用这个:
my @words = grep { /[a-z0-9]/i } split ' ', $article;
print scalar @words, "\n";
这将匹配所有包含字符或数字的单词。您认为,这是否足以计算文章中的字数?
有谁知道CPAN上的一个模块可以做到这一点?