我有一个这样格式化的 html 文档:
<p>
some plain text <em>some emphatized text</em>, <strong> some strong text</strong>
</p>
<p>
just some plain text
</p>
<p>
<strong>strong text </p> followed by plain, <a>with a link at the end!</a>
</p>
我想提取文本。使用类似解析器的dom,我可以提取每个段落
,但问题在里面:我也必须从内部标签中提取文本,并得到一个具有相同顺序的结果字符串,在上面的示例中,第一段,我想提取:
some plain text some emphatized text, some strong text
出于这个目的,我猜像 sax 这样的解析器会比 dom 更好,因为我不知道内部标签编号 o 序列:一个段落可以有零个或多个不同类型的内部标签。