我想使用 perl 在 para 中拆分句子。
现在我使用 Lingua::EN::Sentence 模块,我可以在没有内部的情况下拆分句子
> <em>
标签,但我不能拆分这一段,因为内部有一些标签
脚本:
use strict; use Lingua::EN::Sentence qw( get_sentences add_acronyms );
$line = "En meteen is er iets. Die voorstelling dat hapert";
my $sentences = get_sentences($line); foreach my $sentence
(@$sentences) {
print $sentence."\n"; }
输出:
En meteen is er iets.
Die voorstelling dat hapert
> <p>luk heeft aan zichzelf genoeg, het heeft geen getuigen nodig. Then
> <em class="xix"><span class="emph-xix-brl">anna Karenina</span>.
> </em>Ik zou daar hooguit afkunnen. Hoe meer <em>getuigen hoe<em>
> beter. Het alleen is.</p>
这个段怎么拆?