30

在任何通用语言中,有哪些好的库可以将 PDF 转换为 HTML?

4

9 回答 9

5

apache 的 PDFBox 具有 html 提取功能。http://pdfbox.apache.org/

于 2009-11-23T17:47:52.683 回答
3

如果您正在使用 Windows 机器,我认为Amyuni也有一个库。他们的 PDF 文档转换器可以作为 DLL 访问,可以在 Visual Studio 支持的语言中广泛使用,并且可以转换为 RTF、TML、EXCEL、JPEG 和 TIFF。

于 2009-10-29T19:01:15.733 回答
2

在 linux 中安装pdftohtml - 要批量转换文件夹中的所有文件,请使用:

ls *.pdf | xargs -I{} pdftohtml {}

这将使用原始文档中的所有参考和图像创建 html 站点。每个页面都在一个单独的 html 文件中。使用通用系统文件搜索将项目文档转换为按短语搜索文件非常有用。

于 2014-04-10T04:51:25.540 回答
2

pdftohtml程序将 pdf转换为 html 和 xml 并保留文本的位置信息,这有助于抓取表格。

它似乎基于 xpdf 库,并且也有一个 windows 二进制文件。

于 2010-10-04T07:56:43.863 回答
2

您可以在 Python 中使用一个名为 PDFMiner 的模块。

你可以像这样安装它:

pip install pdfminer

使用这个模块如下:

pdf2txt.py -o output.html -t html file.pdf

模块链接: https ://pypi.org/project/pdfminer/

于 2020-03-06T09:30:15.483 回答
1

http://www.lowagie.com/iText/ Java 和 C# 的开源库

于 2009-10-30T04:26:22.220 回答
1

在 Perl 中,您可以使用SWISH::Filter插件SWISH::Filters::Pdf2HTML。(它需要xpdf 包。)

对于反向(HTML 到 PDF),请参阅此问题

于 2009-10-28T18:07:59.993 回答
0

如果您正在寻找一种将 PDF 转换为 HTML 一次或两次的方法,那么我推荐Adob​​e Online Conversion

如果它是您所追求的 API,那么http://www.pdfonline.com/有一个可以满足您需求的 SDK。

如果它是您所追求的库,请告诉我们您喜欢哪种服务器端语言。

于 2009-10-28T18:22:57.887 回答
0

鉴于原始问题的模糊性,我将继续提供一个解决方案,该解决方案适用于任何可以执行命令行应用程序的语言。虽然设置起来可能有点棘手,但OpenOffice可以在服务器上以无头模式运行,并且在jodconverter的帮助下,可以将任何文件格式转换为任何其他文件格式(好吧,openoffice 可以处理的任何格式转换, 那是)。

以下是一些有助于设置的链接:

于 2009-10-30T02:04:02.017 回答