我正在寻找一个优雅的解决方案来查找文档中的哪些页面上出现了我存储在 python 字典/列表中的某个单词。
我首先考虑将 .docx 格式作为输入,并查看了具有搜索功能的PythonDocx,但在 docx/xml 格式中显然没有真正的 pages 属性。如果我解析文档,我可以<w:br w:type="page"/>
在 xml 树中查找事件,但不幸的是这些不显示非强制分页符。
我什至考虑先将文件转换为 PDF,然后使用PDFminer之类的东西逐页解析文档。
是否有任何直接的解决方案来搜索 .docx 文档中的字符串并返回它出现的页面
[('foo' ,[1, 4, 7 ]), ('bar', [2]), ('baz', [2, 5, 8, 9 )]