parsing - 从 ODP 或 ODF 文件中提取结构数据

Question

我正在尝试提取 ODP（OpenDocument 演示）文件中的信息层次结构：标题、副标题、正文...

你知道任何可以完成这项工作的工具或技术吗？

否则，是否有办法解析这些 ODP 文档以提取样式信息？所以我以后可以从它的样式中推断出文档结构。

恐怕ODP文件中的XML文件的结构可能取决于软件或版本。因此，我宁愿找到一个高级解决方案，也不愿直接解析这个 XML 文件。

score 1 · Accepted Answer

由于我找不到任何可以从演示文件中提取大纲、标题、文本...的工具，我创建了Exide，这是一个支持 ODP、PPTX 和 beamer 文件的开源 API，它可以实现：

有关更多信息，请查看项目的 github 页面。

1 回答 1