我正在使用 Java 代码从 Web 中提取信息进行处理,并且我正在使用该jsoup
库来清理从网站获得的响应中的 html 标签。现在,为了从这些代码中提取信息,我必须将 html 标签替换为很少使用的字符,例如“~”。
所以这是我的问题:
我如何转换这个:
<h1>This is heading 1</h1>
<h2>This is heading 2</h2>
<h3>This is heading 3</h3>
<h4>This is heading 4</h4>
<h5>This is heading 5</h5>
<h6>This is heading 6</h6>
进入这个:
~This is heading 1~
~This is heading 2~
~This is heading 3~
~This is heading 4~
~This is heading 5~
~This is heading 6~
使用jsoup
?