Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在尝试解析 docx 文件夹并根据某个单词是否加粗来获取特定元素。如果这是文档中的文本:
福:你好
嘘: 呸呸呸
•废话
周:你好
我想逐行扫描,然后将粗体字之后的所有文本取出,直到下一个粗体字。
截至目前,我正在使用基于换行符解析的 XML 解析器。我在 Zipfile 中找不到任何东西,也找不到任何可以给我这样的元数据的行。
是否有可能做到这一点?
我会使用支持读取 docx 文件而不是解析 XML 文档的更高级别的库。
一个负责这项任务的库是python-docx。
如果您使用的是 Jython,Apache POI HWPF是另一种选择。