1

我有一个带有标题的 html 文本文件,我想提取其中的唯一文本

例子:

<h1 class="title"><a href="dtb.htm#rgn_txt_0001_0001">Fire Safety</a></h1>
<h1><a href="dtb.htm#rgn_txt_0002_0001">About this book</a></h1>
<h1><a href="dtb.htm#rgn_par_0002_0008">1</a></h1>
<h1><a href="dtb.htm#rgn_txt_0003_0001">Contents of this book</a></h1>

我只想从 HTML 代码中提取以下文本:

消防安全, 关于本书, 1, 本书内容

我尝试了很多事情,例如:

Pattern pattern = Pattern.compile("<a[^>]href\\s=\\s*\"\\s*([^\"]*)");
Matcher matcher = pattern.matcher(input);

其中输入是html数据。

在控制台上没有得到任何结果,或者有时我只得到href :(

我该如何解决这个问题?

让我知道!谢谢!

4

1 回答 1

3

我强烈建议使用 HTML 解析器,例如TagSoupJerichoNekoHTMLHTML Parser

于 2012-12-18T07:08:07.403 回答