python - python中的Docx内容和格式提取

Question

我正在尝试解析 docx 文件夹并根据某个单词是否加粗来获取特定元素。如果这是文档中的文本：

福：你好

嘘：呸呸呸

•废话

周：你好

我想逐行扫描，然后将粗体字之后的所有文本取出，直到下一个粗体字。

截至目前，我正在使用基于换行符解析的 XML 解析器。我在 Zipfile 中找不到任何东西，也找不到任何可以给我这样的元数据的行。

是否有可能做到这一点？

score 0 · Accepted Answer

我会使用支持读取 docx 文件而不是解析 XML 文档的更高级别的库。

一个负责这项任务的库是python-docx。

如果您使用的是 Jython，Apache POI HWPF是另一种选择。

1 回答 1