我有一个带有标题的 html 文本文件,我想提取其中的唯一文本
例子:
<h1 class="title"><a href="dtb.htm#rgn_txt_0001_0001">Fire Safety</a></h1>
<h1><a href="dtb.htm#rgn_txt_0002_0001">About this book</a></h1>
<h1><a href="dtb.htm#rgn_par_0002_0008">1</a></h1>
<h1><a href="dtb.htm#rgn_txt_0003_0001">Contents of this book</a></h1>
我只想从 HTML 代码中提取以下文本:
消防安全, 关于本书, 1, 本书内容
我尝试了很多事情,例如:
Pattern pattern = Pattern.compile("<a[^>]href\\s=\\s*\"\\s*([^\"]*)");
Matcher matcher = pattern.matcher(input);
其中输入是html数据。
在控制台上没有得到任何结果,或者有时我只得到href :(
我该如何解决这个问题?
让我知道!谢谢!