我想创建一个验证工具;
任何人都可以帮我阅读 Python 中的 .doc/.docx 文档,以便搜索和比较文件内容。
对的,这是可能的。LibreOffice(至少)有一个命令行选项来转换文件,这是一种享受。使用它将文件转换为文本。然后按照常规操作将文本文件加载到 Python 中。
这在 LibreOffice 4.2 / Linux 上对我有用:
soffice --headless --convert-to txt:Text /path_to/document_to_convert.doc
我尝试了几种方法(包括 odt2txt、antiword、zipfile、lpod、uno)。上面的 soffice 命令是第一个运行简单且没有错误的命令。这个soffice
关于在ask.libreoffice.org上使用过滤器的问题对我有帮助。
您可以尝试使用 PyWin32 通过 COM 访问 Word,虽然这会有点难看。您还可以查看 IronPython,因为它是使用 .NET 构建的,并且可能与 Office 有更好的挂钩。
另请参阅以下内容: