pdf-conversion - PDF转HTML或类似

Question

我正在构建一个应用程序来通过浏览器查看 pdf，而无需移动设备上的插件。我尝试使用 ImageMagick 和 ghostscript 将页面转换为图像，但它们太大并且文本变得不清楚。我看到网站提供了将 pdf 转换为 html 的服务并进行了一项下降工作，但我找不到如何完成此操作的示例。任何帮助深表感谢。谢谢！

score 1 · Accepted Answer

我在谷歌上搜索，发现下面的链接解释了 scridb.com 如何实现转换。 http://coding.scribd.com/2010/06/01/the-perils-of-stacking/

score 1 · Accepted Answer

编辑：我似乎已经倒读了这个问题。在这种情况下，最好先解析 PDF，然后根据您找到的内容格式化一些 HTML。我相信 javapdf 选项能够做到这一点，但我没有使用过这些，所以我不确定。如果情况变得更糟，并且您找不到反汇编 PDF 的软件，您可以通过阅读 PDF 规范，用 Java 或 PHP 编写自己的反汇编程序。祝你好运！

http://www.adobe.com/devnet/pdf/pdf_reference.html - PDF 规范（Adobe 修改版，因为它们最受欢迎，您可能希望支持它们的扩展）

-- OLD -- 这些网站可能会编写自己的专有软件来解决问题。如果您真的对这项工作感兴趣，我建议您解析 HTML 以获取数据和样式信息，并使用它来格式化某种 PDF 编写器 API。快速谷歌搜索产生以下结果：--END OLD--

http://www.cutepdf.com/Solutions/

http://ruby-pdf.rubyforge.org/pdf-writer/doc/index.html

http://asprise.com/product/javapdf/

score 1 · Accepted Answer

如果您正在考虑将 PDF 转换为 HTML 并计划在服务器上运行转换，那么您可以尝试 pdf2html。它是作为 poppler-utils 的一部分打包的程序。我不知道程序是如何完成它的。

pdf-conversion - PDF转HTML或类似

3 回答 3

Related

Reference