我正在尝试使用 Java 从 ePub 文件中检索文本数据。ePub 文件的文本位于 HTML 文件中,格式如下:
<h2 id="pgepubid00001">Chapter I</h2>
<p>Some text</p>
<p>Another line of Text</p>
<br/>
<h2 id="pgepubid00001">Chapter II</h2>
etc..
在打开这个文件之前,我已经知道我需要提取的章节的 ID,并且也可以找到下一章节的 ID。因此,我认为一种合乎逻辑的方法是尝试在 SAX 解析器中解析它并提取每个段落中的文本,直到我到达下一章的链接。但事实证明这是一项艰巨的任务。
当然,一切都是动态的,所以没有设置链接可以转到等。HTML 是半严格格式的,所以我没想到解析会出现这么大的问题。谁能推荐一种提取所需文本的好方法?
解决方案必须是JAVA ONLY,不能使用其他语言。我希望在 Android 设备中实现这一点