30

是否有合适的库可用于将 PDF 转换为 HTML 或其他可以轻松转换为 HTML 的格式?

我搜索了类似的问题,但没有运气。

我希望能够从 PDF 中提取文本,可能是图像。我不希望将 PDF 嵌入 HTML 中。

4

6 回答 6

23

如果您使用的是 Linux,请尝试pdftohtml

sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html

在 MacOS(带有homebrewpdftohtml上可以安装:

brew install pdftohtml

开源电子书转换器Calibre还可以将 PDF 文件转换为 HTML,可在 MacOS、Windows 和 Linux 上使用。

于 2016-11-27T22:37:13.887 回答
6

就像我在上面的评论中提到的那样,绝对可以使用 Able2Extract7 工具将 pdf 转换为 html,该工具可以从这里下载

我已经使用这个工具将近 2 年了,我对它非常满意。此工具可让您将 PDF 转换为 Word、Excel、PowerPoint、Publisher、HTML、OO 等。查看截图

在此处输入图像描述

Imp 注意:此工具不是免费软件。

高温高压

于 2012-06-07T06:27:42.177 回答
3

下载

  • pdfbox-2.0.3.jar
  • fontbox-2.0.3.jar
  • preflight-2.0.3.jar
  • xmpbox-2.0.3.jar
  • pdfbox-tools-2.0.3.jar
  • pdfbox-debugger-2.0.3.jar

来自http://pdfbox.apache.org/

 import java.io.InputStream;
 import java.io.IOException;
 import org.apache.pdfbox.pdmodel.PDDocument;
 import org.apache.pdfbox.tools.PDFText2HTML;

    // .....
    try {
        InputStream is = // ..... Read PDF file
        PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
        PDFText2HTML converter = new PDFText2HTML(); // the converter
        String html = converter.getText(pdd); // That's it!
        pdd.close();
        is.close();
    } catch (IOException ioe) {
        // ......
    }

请注意:图像不会被推送到 HTML 输出。

于 2016-11-23T20:42:44.350 回答
3

将 PDF 转换为 HTML 并不难。但是,有许多在线选项可能会将您的数据暴露给第三方。按照这些步骤操作,输出非常好。

  1. 打开PDF2HTMLEX 页面。(您可以按照我提到的后续步骤进行操作,也可以按照页面上的说明进行操作。)

  2. 可从此处下载适用于 Windows 的软件包

    从许多可用的选项中,我建议下载“pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip(pdf2htmlEx.exe 包含 UPX)”

  3. 下载和解压缩后,只需一个 cmd 命令即可完成转换。

    C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
    

    最终命令:

    pdf2htmlEX.exe c:\1\abc.pdf
    

    (您当然可以缩短文件夹的名称,但是,我保持它与解压缩下载后看到的相同。我假设您可以将 cmd 中的目录更改为所需的文件夹,或者谷歌如何。)

abc.pdf 将被转换为 HTML,并以 abc.html 的形式保存在与您的 exe 相同的文件夹中。

于 2017-06-08T23:42:14.757 回答
1

是的,这绝对是可能的。如果你在 ubuntu linux

apt-get install pdftohtml

然后

pdftohtml myFile.pdf myFile.htm -c -noframes

如果您想查看所有标志的含义,只需键入

pdftohtml

如果您不在 linux 上,那么您可以使用大量工具来实现这一点。

于 2012-03-08T18:40:12.000 回答
-1

这是 Linux 的一种pdfgrep可能性sed

sudo apt install pdfgrep

pdfgrep  .yourdoc.pdf | sed '/^$/d'| sed -e 's/^%%/<p>%%/'| sed -e 's/^--/<p>--/' | sed -e 's/--$/--<p>/'> yourdoc.html

要正确格式化,您需要使用sed.

于 2021-03-03T07:00:17.787 回答