-1

我想在正确的 html 文件中找到所有文本。例子:

<div style="color: red;">text<span>another text</span>another text<img src="some_image"/></div>

我怎么能在java中做到这一点?

4

2 回答 2

0

正如所指出的,正则表达式是一个坏主意。我认为解析 HTML 可能最知名的库是jSoup,MK Yong 的一个非常好的教程在这里

于 2013-06-07T08:08:29.073 回答
0

尝试 Apache Tika http://tika.apache.org/0.7/gettingstarted.html

将 Tika 用于 .html 的示例:如何在 Java 中使用 HTML 解析器和 Apache Tika 来提取所有 HTML 标签?

于 2013-10-07T13:47:30.000 回答