我想在正确的 html 文件中找到所有文本。例子:
<div style="color: red;">text<span>another text</span>another text<img src="some_image"/></div>
我怎么能在java中做到这一点?
尝试 Apache Tika http://tika.apache.org/0.7/gettingstarted.html
将 Tika 用于 .html 的示例:如何在 Java 中使用 HTML 解析器和 Apache Tika 来提取所有 HTML 标签?