0

如何从 python 中的 docx 文件中获取文本?最好,这会将其导入一个简单的字符串。显然可以忽略原始文件中的格式。

我了解 docx 文件(文本保存为的文件夹document.xml)的结构,但我想要一种提取文本的简单方法,而无需手动打开该文件夹、提取文件和提取段落标签。

我已经尝试过Python Docx(根据这个旧的 stackoverflow 问题),但每次都会出错:

import docx as dx
document = dx.opendocx('files/file.docx')

Traceback (most recent call last):
  File "concord.py", line 2, in <module>
    document = dx.opendocx('files/#n01 ch B3A126.docx')
AttributeError: 'module' object has no attribute 'opendocx'
4

0 回答 0