是否可以在不使用 COM 对象的情况下在 Python 中读取和写入 Word(2003 和 2007)文件?
我知道我可以:
f = open('c:\file.doc', "w")
f.write(text)
f.close()
但 Word 会将其读取为 HTML 文件而不是本机 .doc 文件。
是否可以在不使用 COM 对象的情况下在 Python 中读取和写入 Word(2003 和 2007)文件?
我知道我可以:
f = open('c:\file.doc', "w")
f.write(text)
f.close()
但 Word 会将其读取为 HTML 文件而不是本机 .doc 文件。
请参阅python-docx,其官方文档可在此处获得。
这对我来说效果很好。
如果你只是看什么,最简单的方法是使用 linux soffice 命令将其转换为文本,然后将文本加载到 python 中:
我会研究IronPython,它本质上可以访问 Windows/Office API,因为它在 .NET 运行时上运行。
doc(本例中为 Word 2003)和 docx(Word 2007)是不同的格式,后者通常只是 xml 和图像文件的存档。我想通过操作这些 xml 文件的内容来写入 docx 文件是很有可能的。但是,我看不出在没有某种类型的 COM 组件接口的情况下如何读取和写入 doc 文件。