我的目标是从 PDF 文件中提取文本和图像,同时解析其结构。解析结构的范围并不详尽;我只需要能够识别标题和段落。
我尝试了一些不同的东西,但我在其中的任何一个中都没有走得太远:
- 将 PDF 转换为文本。它对我不起作用,因为我丢失了图像和文档的结构。
- 将 PDF 转换为 HTML。我找到了一些可以帮助我解决这个问题的工具,迄今为止最好的工具是 pdftohtml。该工具在演示方面非常出色,但我无法成功解析 HTML。
- 将 PDF 转换为 XML。和上面一样。
有人对如何解决这个问题有任何建议吗?