我想从 pdf 或 word 文档生成 html 代码。该文档包含项目符号列表和一些项目符号列表包含和其他项目符号列表。我想在 html 中转换项目符号列表,但是当我提取文档的内容时,我只有一个没有初始结构和项目符号的粗略文本。我需要一种方法来识别文档中的项目符号及其深度
谢谢你的帮助
我想从 pdf 或 word 文档生成 html 代码。该文档包含项目符号列表和一些项目符号列表包含和其他项目符号列表。我想在 html 中转换项目符号列表,但是当我提取文档的内容时,我只有一个没有初始结构和项目符号的粗略文本。我需要一种方法来识别文档中的项目符号及其深度
谢谢你的帮助
查看用于处理 Word 文档的python-docx库:
https://python-docx.readthedocs.io/en/latest/
在 python-docx 中的 Bullet Lists 中有一些关于嵌套项目符号点的讨论,这是关于创建而不是阅读,但应该可以使用相同的原则解析现有文档。
有各种库可以处理 PDF,但我听说过有关borb的好消息:https ://github.com/jorisschellekens/borb