html - 如何将 PDF 转换为 HTML？

Question

在任何通用语言中，有哪些好的库可以将 PDF 转换为 HTML？

score 5 · Accepted Answer

5

apache 的 PDFBox 具有 html 提取功能。http://pdfbox.apache.org/

于 2009-11-23T17:47:52.683 回答

score 3 · Accepted Answer

如果您正在使用 Windows 机器，我认为Amyuni也有一个库。他们的 PDF 文档转换器可以作为 DLL 访问，可以在 Visual Studio 支持的语言中广泛使用，并且可以转换为 RTF、TML、EXCEL、JPEG 和 TIFF。

score 2 · Accepted Answer

在 linux 中安装pdftohtml - 要批量转换文件夹中的所有文件，请使用：

ls *.pdf | xargs -I{} pdftohtml {}

这将使用原始文档中的所有参考和图像创建 html 站点。每个页面都在一个单独的 html 文件中。使用通用系统文件搜索将项目文档转换为按短语搜索文件非常有用。

score 2 · Accepted Answer

pdftohtml程序将 pdf转换为 html 和 xml 并保留文本的位置信息，这有助于抓取表格。

它似乎基于 xpdf 库，并且也有一个 windows 二进制文件。

score 2 · Accepted Answer

您可以在 Python 中使用一个名为 PDFMiner 的模块。

你可以像这样安装它：

pip install pdfminer

使用这个模块如下：

pdf2txt.py -o output.html -t html file.pdf

模块链接： https ://pypi.org/project/pdfminer/

score 1 · Accepted Answer

1

http://www.lowagie.com/iText/ Java 和 C# 的开源库

于 2009-10-30T04:26:22.220 回答

score 1 · Accepted Answer

在 Perl 中，您可以使用SWISH::Filter插件SWISH::Filters::Pdf2HTML。（它需要xpdf 包。）

对于反向（HTML 到 PDF），请参阅此问题。

score 0 · Accepted Answer

如果您正在寻找一种将 PDF 转换为 HTML 一次或两次的方法，那么我推荐Adobe Online Conversion

如果它是您所追求的 API，那么http://www.pdfonline.com/有一个可以满足您需求的 SDK。

如果它是您所追求的库，请告诉我们您喜欢哪种服务器端语言。

score 0 · Accepted Answer

鉴于原始问题的模糊性，我将继续提供一个解决方案，该解决方案适用于任何可以执行命令行应用程序的语言。虽然设置起来可能有点棘手，但OpenOffice可以在服务器上以无头模式运行，并且在jodconverter的帮助下，可以将任何文件格式转换为任何其他文件格式（好吧，openoffice 可以处理的任何格式转换，那是）。

以下是一些有助于设置的链接：

html - 如何将 PDF 转换为 HTML？

9 回答 9

Related

Reference