截至目前,我正在使用 Python-docx 将 .docx 文件中的文本转换为单个字符串。
f = open(os.path.expanduser("~/documents/myFile.docx"))
document = opendocx(f)
docString = ''.join(getdocumenttext(document))
然后我使用简单的内置 Python 拆分方法解析字符串。将字符串解析为列表后,我将该列表加载到 MySQL 数据库中。这很好用,但我唯一的问题是我想保留特殊字符。
数据库支持这些特殊字符 (utf-8),但是当我将 .docx 转换为字符串时,会丢失很多字符和格式(斜体、粗体等)。
我希望能够从 .docx 文件中解析和加载格式完整的文本。