1

我正在尝试解析 docx 文件夹并根据某个单词是否加粗来获取特定元素。如果这是文档中的文本:

福:你好

嘘: 呸呸呸

•废话

•废话

周:你好

我想逐行扫描,然后将粗体字之后的所有文本取出,直到下一个粗体字。

截至目前,我正在使用基于换行符解析的 XML 解析器。我在 Zipfile 中找不到任何东西,也找不到任何可以给我这样的元数据的行。

是否有可能做到这一点?

4

1 回答 1

0

我会使用支持读取 docx 文件而不是解析 XML 文档的更高级别的库。

一个负责这项任务的库是python-docx

如果您使用的是 Jython,Apache POI HWPF是另一种选择。

于 2013-10-20T10:13:41.820 回答