<td valign="top" width="230">
<div>
<b><a href="http://www.cs.cornell.edu/johannes/">Johannes Gehrke</a></b>
</div>
<div class="small">
Professor<br>Computer Science, CS Field Member<br>Director of Graduate Studies<br>
Ph.D., Univ of Wisconsin, Madison, 1999<br><b>Research focus:</b> Database systems, data mining, and data privacy
</div>
</td>
我想从给定的 html 字符串中获取标签序列。最简单的方法是什么?例如,以上面的 html 字符串作为输入,我希望我的方法输出一个字符串数组,即[td,div,b,a,div,br,br,br,br,b]
.
我试图Jsoup
解析 html 字符串,但似乎没有办法捕获像br
. 我想知道任何其他 Java 库都可以为我解决问题。最后的手段是使用正则表达式技术。如果有人可以为此目的想出一个简洁的正则表达式,它也可以。