2

首先让我说我的python知识是初级到中级水平,我最近在很长一段时间后再次开始使用该语言。

目标:

今天早上我遇到了一堆我想转换并连接成 PDF 文件的 word 文档,其中 2 个 .doc 文件创建了一个 PDF。似乎是一项相当微不足道的任务,所以我想我会尝试学习如何在 python 中完成它。连接 PDF 还不错,我找到了 PyPDF2 并设法编写了一个脚本来做到这一点。

但是 7 小时后,在无数依赖关系被破坏的脚本之后,我仍然找不到自动转换 doc-pdf的方法。

问题:

我发现的每个脚本:

  1. 使用 python-docx (我的文档是word 2003 .docs
  2. 使用 unoconv 桥接器(我与 OpenOffice 一起安装,然后四处搜索文档但没有找到 - 因此我不知道如何从 python 脚本或 shell 调用。我看到了一个示例,但它一直抛出错误)
  3. 使用 win32com 或 win32com.client 或 pywin32 或类似的。我遇到了很多问题 - 安装了这些但无法从代码中导入它(就像这里的人发生的那样),现在我什至无法用 pip 找到它们。搜索它们的文档(它们是模块还是类?我不知道),除了它们连接到 ActivePython 之外,几乎没有发现任何我能理解的东西。(这显然是具有更多功能的 Python 的超集?)。
  4. 使用我安装但由于某种原因无法使用/导入的 comtypes(也许我以某种方式使用 pip 错误?)

我知道我的问题几乎没有重点,但老实说,现在我的大脑因信息超载而受煎熬。任何对菜鸟的简化都会受到欢迎。

TL;博士:

假设对 COM 的知识一无所知,并且对任何外部框架的经验也很少:

  1. 我需要做什么才能将 Word 2003 .doc 文件转换为 .pdf 文件?我在 Windows 10 64 位机器上运行 python3.5.1 32 位。
  2. 我在哪里可以了解有关从 python 访问其他软件 API 的更多信息?这些东西是否有很大的先决条件,例如了解操作系统如何在较低级别上工作?

谢谢!

4

1 回答 1

0

根据我的经验,各种办公格式之间的转换最好在 python 之外完成。使用 subprocess 模块,您可以调用外部命令

soffice --convert-to pdf file.doc  --headless

其中 soffice 是 LibreOffice 附带的命令。

于 2017-07-24T19:46:49.207 回答