假设我们有一个 .doc 和 .docx 文件。我想在 PHP 中使用 LiveDocx 来加载文件,读取它的内容并从其中剥离文本。然后将其保存为 HTML 字符串。
这可以做到吗?
我搜索了文档,发现 LiveDocx 只加载 .doc 和 .docx 模板文件!
您可以使用外部库保存并简单地从文件中的 XML 中获取文本: http ://www.webcheatsheet.com/PHP/reading_the_clean_text_from_docx_odt.php
我认为您可以使用 TextControl 改进 phpLiveDocx TextControl 链接
使用它您还可以导入 pdf doc 和 docx
我想你可以在这个例子中找到你需要的东西。
我可能错了,但我认为他们称它们为“模板”文件,因为它们的行为类似于模板,但仍然是普通的 .doc/.docx 文档。我建议您简单地尝试运行该示例。
当您在 LiveDocX 上进行文档转换时,您需要进行邮件合并,然后检索文档。即使您没有插入任何新内容,您也需要进行邮件合并,用虚拟内容替换虚拟占位符。
所以,我建议的过程是:
1)将您的源文档设置为本地模板
2)将虚拟字段与虚拟内容合并
3)将您的文档检索为 HTML
4)使用脚本服务器端删除 html 并仅保留内容(类似,删除 HEAD 之间的所有内容标签,然后是 strip_tags 其余部分) 5)您应该将内容保留为简单的字符串 - 我不确定它是否太有意义,但可能对构建搜索索引之类的内容有用。