是否有合适的库可用于将 PDF 转换为 HTML 或其他可以轻松转换为 HTML 的格式?
我搜索了类似的问题,但没有运气。
我希望能够从 PDF 中提取文本,可能是图像。我不希望将 PDF 嵌入 HTML 中。
是否有合适的库可用于将 PDF 转换为 HTML 或其他可以轻松转换为 HTML 的格式?
我搜索了类似的问题,但没有运气。
我希望能够从 PDF 中提取文本,可能是图像。我不希望将 PDF 嵌入 HTML 中。
就像我在上面的评论中提到的那样,绝对可以使用 Able2Extract7 工具将 pdf 转换为 html,该工具可以从这里下载
我已经使用这个工具将近 2 年了,我对它非常满意。此工具可让您将 PDF 转换为 Word、Excel、PowerPoint、Publisher、HTML、OO 等。查看截图
Imp 注意:此工具不是免费软件。
高温高压
下载
import java.io.InputStream;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.tools.PDFText2HTML;
// .....
try {
InputStream is = // ..... Read PDF file
PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
PDFText2HTML converter = new PDFText2HTML(); // the converter
String html = converter.getText(pdd); // That's it!
pdd.close();
is.close();
} catch (IOException ioe) {
// ......
}
请注意:图像不会被推送到 HTML 输出。
将 PDF 转换为 HTML 并不难。但是,有许多在线选项可能会将您的数据暴露给第三方。按照这些步骤操作,输出非常好。
打开PDF2HTMLEX 页面。(您可以按照我提到的后续步骤进行操作,也可以按照页面上的说明进行操作。)
从许多可用的选项中,我建议下载“pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip(pdf2htmlEx.exe 包含 UPX)”
下载和解压缩后,只需一个 cmd 命令即可完成转换。
C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
最终命令:
pdf2htmlEX.exe c:\1\abc.pdf
(您当然可以缩短文件夹的名称,但是,我保持它与解压缩下载后看到的相同。我假设您可以将 cmd 中的目录更改为所需的文件夹,或者谷歌如何。)
abc.pdf 将被转换为 HTML,并以 abc.html 的形式保存在与您的 exe 相同的文件夹中。
是的,这绝对是可能的。如果你在 ubuntu linux
apt-get install pdftohtml
然后
pdftohtml myFile.pdf myFile.htm -c -noframes
如果您想查看所有标志的含义,只需键入
pdftohtml
如果您不在 linux 上,那么您可以使用大量工具来实现这一点。
这是 Linux 的一种pdfgrep
可能性sed
sudo apt install pdfgrep
pdfgrep .yourdoc.pdf | sed '/^$/d'| sed -e 's/^%%/<p>%%/'| sed -e 's/^--/<p>--/' | sed -e 's/--$/--<p>/'> yourdoc.html
要正确格式化,您需要使用sed
.