我正在尝试使用python-docx
模块(pip install python-docx
),但它似乎非常令人困惑,因为在github repo测试示例中他们使用的是opendocx
函数,但在readthedocs中他们使用的是Document
类。即使他们只展示了如何将文本添加到 docx 文件,而不是读取现有文件?
第一个 ( opendocx
) 不起作用,可能已弃用。对于第二种情况,我试图使用:
from docx import Document
document = Document('test_doc.docx')
print(document.paragraphs)
它返回了一个列表<docx.text.Paragraph object at 0x... >
然后我做了:
for p in document.paragraphs:
print(p.text)
它返回了所有文本,但几乎没有什么遗漏。控制台上的文本中不存在所有 URL(CTRL+CLICK 转到 URL)。
问题是什么?为什么缺少 URL?
我如何在不迭代循环的情况下获得完整的文本(类似于open().read()
)