1

我正在尝试提取 ODP(OpenDocument 演示)文件中的信息层次结构:标题、副标题、正文...

你知道任何可以完成这项工作的工具或技术吗?

否则,是否有办法解析这些 ODP 文档以提取样式信息?所以我以后可以从它的样式中推断出文档结构。

恐怕ODP文件中的XML文件的结构可能取决于软件或版本。因此,我宁愿找到一个高级解决方案,也不愿直接解析这个 XML 文件。

4

1 回答 1

1

由于我找不到任何可以从演示文件中提取大纲、标题、文本...的工具,我创建了Exide,这是一个支持 ODP、PPTX 和 beamer 文件的开源 API,它可以实现:

  • 幻灯片标题提取
  • 幻灯片正文文本提取
  • 命名实体识别(不准确)
  • 强调文本识别
  • 网址识别
  • 结构检测和轮廓生成
  • 识别以下 silde 类型:
    • 介绍
    • 结论
    • 定义
    • 例子
    • 目录
    • 参考
    • 节标题

有关更多信息,请查看项目的 github 页面

于 2017-08-11T23:05:37.347 回答