0

我正在构建一个 Web 应用程序,该应用程序将包含获取 MS Word(以及可能来自基于 Web 的富文本编辑器的输入)文档的功能,将值替换为这些文档中的表单域占位符,并生成一个 PCL 文档作为输出。

我在 windows 上使用 python 和 django 进行开发,但是整个解决方案需要部署到一个 web 主机(尚未选择),这实际上意味着该解决方案需要在 linux 上运行。

如果这是唯一的方法,我对仅限 linux 的解决方案持开放态度。我对涉及与用另一种语言编写的服务器交谈的解决方案持开放态度。如有必要,我可以编写 C++ 或 java 来完成这项工作。最终输出必须是 PCL 格式

我的问题是:使用 python 从 word 文档生成 PCL 的好工具链是什么

我正在考虑使用某种接口来 openoffice 来打开 word 文档,进行替换,并将输出发送到某种打印机驱动程序。这个事情谁有经验?你会推荐哪些图书馆?

我确定的接口选项包括以下内容;非常欢迎任何其他建议:

第二种方法是使用 paradocx(https://bitbucket.org/yougov/paradocx/wiki/Home)之类的东西来打开 word 文件,在 python 中使用它进行替换,然后以某种方式与可以输出 PCL 的东西交互. 同样,对于这种方法的任何经验或评论都将不胜感激。

我将非常感谢您对工具和工具链以及您可能拥有的想法或食谱的任何评论。

此问题涵盖与以下内容相似但不同的内容:如何从 MS Word 创建 PCL 文件

4

2 回答 2

2

Ghostscript 可以读取 PS (Postscript) 或 PDF 并创建 PCL。您可以使用 python 库或只是子进程....

于 2012-01-23T16:10:59.727 回答
0

好的,所以我的最终解决方案涉及创建一个 java web 服务来执行我的转码。

  • Docx4j提供了一个org.docx4j.convert.out.pdf.viaXSLFO.Conversion挂钩到apache FOP的类,用于将 Docx 转换为 PDF;可以很容易地被破解以转换为 PCL(因为 FOP 输出 PCL)
  • Spark是一个轻量级的 java web 框架,它允许我将我的转码器包装在 web 服务中
  • 因为我还要操作文档,所以我需要一些元数据,所以完美的东西是多部分表单。我使用Apache Fileupload解码

在几乎所有情况下,我都必须升级到库的开发版本才能使其正常工作。

在 python 方面,我使用:

于 2012-01-30T19:02:57.123 回答