java - 通过Java提取HTML中两个链接之间的文本

Question

我正在尝试使用 Java 从 ePub 文件中检索文本数据。ePub 文件的文本位于 HTML 文件中，格式如下：

<h2 id="pgepubid00001">Chapter I</h2>

<p>Some text</p>
<p>Another line of Text</p>

<br/>

<h2 id="pgepubid00001">Chapter II</h2>

etc..

在打开这个文件之前，我已经知道我需要提取的章节的 ID，并且也可以找到下一章节的 ID。因此，我认为一种合乎逻辑的方法是尝试在 SAX 解析器中解析它并提取每个段落中的文本，直到我到达下一章的链接。但事实证明这是一项艰巨的任务。

当然，一切都是动态的，所以没有设置链接可以转到等。HTML 是半严格格式的，所以我没想到解析会出现这么大的问题。谁能推荐一种提取所需文本的好方法？

解决方案必须是JAVA ONLY，不能使用其他语言。我希望在 Android 设备中实现这一点

score 2 · Accepted Answer

好吧，你知道章节的 id，为什么不使用 String.indexOf 呢？

start = text.indexOf("<h2 id=\"pgepubid00001\">");
end = text.indexOf("<h2 id=\"pgepubid00002\">");

whatYoureLookingFor = text.substring(start, end-start)

把事情简单化。

java - 通过Java提取HTML中两个链接之间的文本

1 回答 1

Related

Reference