假设我有一个这样的 html 片段:
<p> <span> foo </span> <em> bar <a> foobar </a> baz </em> </p>
我想从中提取的是:
foo bar foobar baz
所以我的问题是:我怎样才能从 html 中剥离所有包装标签,并只获取与 html 中相同顺序的文本?正如您在标题中看到的,我想使用 jsoup 进行解析。
重音 html 示例(注意 'á' 字符):
<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
我想要的是:
Tarthatatlan biztonsági viszonyok
Tarthatatlan biztonsági viszonyok
这个 html 不是静态的,通常我只想要一个通用 html 片段的每个文本都以解码的人类可读形式,宽度换行符。