我们从向我们提供 PDF 发行说明的供应商处获得双周软件版本。笔记中有很多不相关的东西,但最终我们需要手动将这些笔记中的信息复制/粘贴到 Confluence 页面中。
理想情况下,我希望能够编写一个 python 应用程序,以便能够从 PDF 中抓取某些部分。结构大致如下(粗体部分是我要提取的部分):
- 介绍
- 新功能
2.1。新功能 1
说明
2.2新功能 2
说明
。
.
.
2.x)新功能 X 说明 - 带有缺陷描述的缺陷修复
描述
表
在这种情况下,文档的其余部分无关紧要
我已经设法让它导入文件并提取(全部)文本,但我真的不知道如何只提取第 2 节的标题,然后对于第 3 节,只取表格并用熊猫重新格式化. 关于如何解决这个问题的任何建议?
import fitz
filename = '~\releasenotes.pdf'
doc = fitz.open(filename)
print (doc) # Just to see what comes out
(现在我下一步该怎么做?)