3

我想创建一个验证工具;

任何人都可以帮我阅读 Python 中的 .doc/.docx 文档,以便搜索和比较文件内容。

4

2 回答 2

8

对的,这是可能的。LibreOffice(至少)有一个命令行选项来转换文件,这是一种享受。使用它将文件转换为文本。然后按照常规操作将文本文件加载到 Python 中。

这在 LibreOffice 4.2 / Linux 上对我有用:

soffice --headless --convert-to txt:Text /path_to/document_to_convert.doc


我尝试了几种方法(包括 odt2txt、antiword、zipfile、lpod、uno)。上面的 soffice 命令是第一个运行简单且没有错误的命令。这个soffice关于在ask.libreoffice.org上使用过滤器的问题对我有帮助。

于 2015-05-08T11:04:47.750 回答
2

您可以尝试使用 PyWin32 通过 COM 访问 Word,虽然这会有点难看。您还可以查看 IronPython,因为它是使用 .NET 构建的,并且可能与 Office 有更好的挂钩。

另请参阅以下内容:

于 2013-05-13T13:32:39.487 回答