html - 如何将 PDF 转换为 HTML？

Question

是否有合适的库可用于将 PDF 转换为 HTML 或其他可以轻松转换为 HTML 的格式？

我搜索了类似的问题，但没有运气。

我希望能够从 PDF 中提取文本，可能是图像。我不希望将 PDF 嵌入 HTML 中。

score 23 · Accepted Answer

如果您使用的是 Linux，请尝试pdftohtml：

sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html

在 MacOS（带有homebrew）pdftohtml上可以安装：

brew install pdftohtml

开源电子书转换器Calibre还可以将 PDF 文件转换为 HTML，可在 MacOS、Windows 和 Linux 上使用。

score 6 · Accepted Answer

就像我在上面的评论中提到的那样，绝对可以使用 Able2Extract7 工具将 pdf 转换为 html，该工具可以从这里下载

我已经使用这个工具将近 2 年了，我对它非常满意。此工具可让您将 PDF 转换为 Word、Excel、PowerPoint、Publisher、HTML、OO 等。查看截图

在此处输入图像描述

Imp 注意：此工具不是免费软件。

高温高压

score 3 · Accepted Answer

下载

pdfbox-2.0.3.jar
fontbox-2.0.3.jar
preflight-2.0.3.jar
xmpbox-2.0.3.jar
pdfbox-tools-2.0.3.jar
pdfbox-debugger-2.0.3.jar

来自http://pdfbox.apache.org/

 import java.io.InputStream;
 import java.io.IOException;
 import org.apache.pdfbox.pdmodel.PDDocument;
 import org.apache.pdfbox.tools.PDFText2HTML;

    // .....
    try {
        InputStream is = // ..... Read PDF file
        PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
        PDFText2HTML converter = new PDFText2HTML(); // the converter
        String html = converter.getText(pdd); // That's it!
        pdd.close();
        is.close();
    } catch (IOException ioe) {
        // ......
    }

请注意：图像不会被推送到 HTML 输出。

score 3 · Accepted Answer

将 PDF 转换为 HTML 并不难。但是，有许多在线选项可能会将您的数据暴露给第三方。按照这些步骤操作，输出非常好。

打开PDF2HTMLEX 页面。（您可以按照我提到的后续步骤进行操作，也可以按照页面上的说明进行操作。）
可从此处下载适用于 Windows 的软件包。

从许多可用的选项中，我建议下载“pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip（pdf2htmlEx.exe 包含 UPX）”
下载和解压缩后，只需一个 cmd 命令即可完成转换。
```
C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
```
最终命令：
```
pdf2htmlEX.exe c:\1\abc.pdf
```
（您当然可以缩短文件夹的名称，但是，我保持它与解压缩下载后看到的相同。我假设您可以将 cmd 中的目录更改为所需的文件夹，或者谷歌如何。）

abc.pdf 将被转换为 HTML，并以 abc.html 的形式保存在与您的 exe 相同的文件夹中。

score 1 · Accepted Answer

是的，这绝对是可能的。如果你在 ubuntu linux

apt-get install pdftohtml

然后

pdftohtml myFile.pdf myFile.htm -c -noframes

如果您想查看所有标志的含义，只需键入

pdftohtml

如果您不在 linux 上，那么您可以使用大量工具来实现这一点。

score -1 · Accepted Answer

这是 Linux 的一种pdfgrep可能性sed

sudo apt install pdfgrep

pdfgrep  .yourdoc.pdf | sed '/^$/d'| sed -e 's/^%%/<p>%%/'| sed -e 's/^--/<p>--/' | sed -e 's/--$/--<p>/'> yourdoc.html

要正确格式化，您需要使用sed.

html - 如何将 PDF 转换为 HTML？

6 回答 6

Related

Reference