0

我目前正在开发一个专有的 PDF 解析器,它可以读取具有各种类型数据的多种类型的文档。在开始之前,我在考虑是否可以阅读 PowerPoint 幻灯片。我的雇主使用需要图像和背景设计的演示指南 - 是否可以构建一个解析器,可以从这些 PowerPoint PDF 中读取数据,而不会妨碍幻灯片装饰?

所以工作流程基本上是这样的:

  1. 在项目结束时,项目报告以演示文稿的形式交付。
  2. 演示文稿将转换为 PDF。
  3. PDF 将提交给我的申请。
  4. 该应用程序将阅读幻灯片并创建以数据为中心的报告以供快速查看。

该应用程序的目标是减少需要大量阅读的阅读量,因为其中一些演示报告可能有很多页,而且一天中没有足够的时间。

4

2 回答 2

0

将 PDF 解析为结构化数据总是很棘手,因为该格式面向精确打印,而不是易于编辑或数据提取。

基本上,PDF 包含诸如“在某个页面上的 (x,y) 位置有一个带有此类文本的标签”之类的信息。

基本上,您很可能需要一些启发式方法才能将其转换为结构化数据。

它基本上是一种刮擦形式。

在您最喜欢的搜索引擎上搜索PDF 抓取或类似内容,这将是一个好的开始。

此外,您可能想查看那些类似的帖子:

于 2019-07-10T17:02:58.650 回答
0

PowerPoint PDF 不是一种PDF

PDF 中不会有任何本机将页面上的元素标识为“幻灯片”图形的内容,例如源自 PowerPoint 文件。

您可以尝试构建一个算法来决定从创建的 PDF 中删除内容,但这会很棘手,而且对我来说似乎是错误的方法。

更好的方法是先将PPT“导出”为文本,例如在 Microsoft PowerPoint 中将其导出为 RTF 文件,以便您将所有文本导出并直接使用,或者然后将其转换为 PDF。

于 2019-07-11T17:20:11.690 回答