我想以编程方式将 Microsoft Word 文档转换为 XHTML。选择的语言是 PHP,所以我会很感激任何关于 PHP 的建议。
最初的想法是尝试将 doc 文件转换为 odt,然后使用Odt2Xhtml PHP 类将其转换为 XHTML 格式。
有没有更好的方法来做到这一点?
如果您正在运行 Linux,一种方法是在服务器上安装 OpenOffice。
可以在此处找到“无头”(即无 UI)安装的示例说明。
然后,您可以使用一个不错的 CLI 应用程序,例如通过 shell_exec 执行的unoconv来通过 PHP 进行转换。
最可靠的方法是使用 COM 让 Word 将文档保存为 HTML。
不知道Word是否可以直接生成XHTML;如果没有,谷歌会显示很多选项来进行这种转换。
请参阅http://www.codeplex.com/OpenXMLViewer,其中包含您可以适应的 XSLT,这是我在 docx4j 中所做的。但是请注意,XSLT 不适合胆小的人!
phpLiveDocx提供了一种非常简单的方法来转换 Microsoft Word 文档。
在项目网站了解更多信息:
您还可以使用 phpLiveDocx 将文本数据与 MS Word 模板合并,并将生成的文档保存为 DOC、DOCX、RTF、PDF 或 TXT。
该组件是企业级的,并且是为 Zend 框架编写的。