我运行一个求职网站,我需要在运行 php 的 linux CentOS 服务器上将 doc、docx 和 pdf 文件转换为 HTML。人们将这些文件作为简历提交。到目前为止,我发现 PHPDocx 非常擅长将 docx 转换为 html。但我被困在 doc/pdf 上。当我运行测试时,PDFTOHTML 给出错误“错误颜色”。就文档而言,我只发现了 wvwave,安装起来似乎很复杂且笨重。
有人对如何轻松地将 doc/pdf 转换为 HTML 有任何想法吗?
我唯一能想到的是FPDF。它用于在 PHP 中创建 PDF 文件,但它也可以打开 PDF 文件。也许您可以将其用作基础并为其开发某种 toHTML 函数。
它完全免费使用,并且已经有一些扩展。它可能会帮助你。
编辑:感谢您在对皮埃尔的评论中添加我的帖子:
您可以使用 fpdi:http ://www.setasign.de/products/pdf-php-solutions/fpdi但输入 pdf 就像图像一样。
到目前为止,我自己还没有看过它,但这可能会有所帮助。
已经有各种工具可以做到这一点,例如http://dag.wieers.com/home-made/unoconv/,http://www.phpdocx.com/(您已经尝试过)
http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/看起来很有希望。
或者,您可以在服务器上安装可移植版本的 libreoffice,它允许命令行转换 https://help.libreoffice.org/Common/Starting_the_Software_With_Parameters
我相信那里会有教程(在 libreoffice 支持区域)
To easily convert pdf to html, I would suggest pdf2htmlEX which produces outstanding HTML and is fast enough for runtime converting. You should first put some effort to optimize and build it for your system. There is simple build howto included on the project link.