java - Java中html文本代码的正则表达式

Question

我有一个带有标题的 html 文本文件，我想提取其中的唯一文本

例子：

<h1 class="title"><a href="dtb.htm#rgn_txt_0001_0001">Fire Safety</a></h1>
<h1><a href="dtb.htm#rgn_txt_0002_0001">About this book</a></h1>
<h1><a href="dtb.htm#rgn_par_0002_0008">1</a></h1>
<h1><a href="dtb.htm#rgn_txt_0003_0001">Contents of this book</a></h1>

我只想从 HTML 代码中提取以下文本：

消防安全, 关于本书, 1, 本书内容

我尝试了很多事情，例如：

Pattern pattern = Pattern.compile("<a[^>]href\\s=\\s*\"\\s*([^\"]*)");
Matcher matcher = pattern.matcher(input);

其中输入是html数据。

在控制台上没有得到任何结果，或者有时我只得到href :(

我该如何解决这个问题？

让我知道！谢谢！

score 3 · Accepted Answer

3

我强烈建议使用 HTML 解析器，例如TagSoup、Jericho、NekoHTML、HTML Parser等

于 2012-12-18T07:08:07.403 回答

java - Java中html文本代码的正则表达式

1 回答 1

Related

Reference