我已经阅读了有关 ePub 格式、标准、结构、阅读器、工具和可用的开发人员技术来操作/转换/创建 ePub,但是(到目前为止)还没有一个神奇的功能来提取特定长度的字符来创建该书的摘录。这正是我正在寻找的:一种提取 ePub 的前 X 个单词的方法。
我正在考虑的第一种方法(不是我最喜欢的顺便说一句)是创建一个解析器来读取所有 ePub 元数据并开始以正确的顺序解析 xml 文件,直到我有足够的单词来创建确定的 ePub 的摘录(我将不胜感激这个方向的一些反馈)
第二种方式(到目前为止我找不到)是一个现有的工具/函数或解析器(任何语言),它(希望)返回 ePub 的纯文本,这样我就可以收集前 X 个单词以创建我的摘抄。
你知道有什么工具可以帮助我实现第二种选择吗?