我正在尝试提取 ODP(OpenDocument 演示)文件中的信息层次结构:标题、副标题、正文...
你知道任何可以完成这项工作的工具或技术吗?
否则,是否有办法解析这些 ODP 文档以提取样式信息?所以我以后可以从它的样式中推断出文档结构。
恐怕ODP文件中的XML文件的结构可能取决于软件或版本。因此,我宁愿找到一个高级解决方案,也不愿直接解析这个 XML 文件。
我正在尝试提取 ODP(OpenDocument 演示)文件中的信息层次结构:标题、副标题、正文...
你知道任何可以完成这项工作的工具或技术吗?
否则,是否有办法解析这些 ODP 文档以提取样式信息?所以我以后可以从它的样式中推断出文档结构。
恐怕ODP文件中的XML文件的结构可能取决于软件或版本。因此,我宁愿找到一个高级解决方案,也不愿直接解析这个 XML 文件。
由于我找不到任何可以从演示文件中提取大纲、标题、文本...的工具,我创建了Exide,这是一个支持 ODP、PPTX 和 beamer 文件的开源 API,它可以实现:
有关更多信息,请查看项目的 github 页面。