在任何通用语言中,有哪些好的库可以将 PDF 转换为 HTML?
9 回答
apache 的 PDFBox 具有 html 提取功能。http://pdfbox.apache.org/
如果您正在使用 Windows 机器,我认为Amyuni也有一个库。他们的 PDF 文档转换器可以作为 DLL 访问,可以在 Visual Studio 支持的语言中广泛使用,并且可以转换为 RTF、TML、EXCEL、JPEG 和 TIFF。
在 linux 中安装pdftohtml - 要批量转换文件夹中的所有文件,请使用:
ls *.pdf | xargs -I{} pdftohtml {}
这将使用原始文档中的所有参考和图像创建 html 站点。每个页面都在一个单独的 html 文件中。使用通用系统文件搜索将项目文档转换为按短语搜索文件非常有用。
pdftohtml程序将 pdf转换为 html 和 xml 并保留文本的位置信息,这有助于抓取表格。
它似乎基于 xpdf 库,并且也有一个 windows 二进制文件。
您可以在 Python 中使用一个名为 PDFMiner 的模块。
你可以像这样安装它:
pip install pdfminer
使用这个模块如下:
pdf2txt.py -o output.html -t html file.pdf
http://www.lowagie.com/iText/ Java 和 C# 的开源库
在 Perl 中,您可以使用SWISH::Filter插件SWISH::Filters::Pdf2HTML。(它需要xpdf 包。)
对于反向(HTML 到 PDF),请参阅此问题。
如果您正在寻找一种将 PDF 转换为 HTML 一次或两次的方法,那么我推荐Adobe Online Conversion
如果它是您所追求的 API,那么http://www.pdfonline.com/有一个可以满足您需求的 SDK。
如果它是您所追求的库,请告诉我们您喜欢哪种服务器端语言。
鉴于原始问题的模糊性,我将继续提供一个解决方案,该解决方案适用于任何可以执行命令行应用程序的语言。虽然设置起来可能有点棘手,但OpenOffice可以在服务器上以无头模式运行,并且在jodconverter的帮助下,可以将任何文件格式转换为任何其他文件格式(好吧,openoffice 可以处理的任何格式转换, 那是)。
以下是一些有助于设置的链接: