寻找从 PDF 文件中提取内容的解决方案(使用控制台工具或库)。
它将在服务器上用于从上传的 PDF 文件生成在线电子书。
需要提取以下内容:
- 带有字体和样式的文本;
- 图片;
- 音频和视频;
- 链接和热点。
- 页面快照和缩略图;
- 一般 PDF 信息,例如书籍布局、页数等。
查看 Adobe PDF 库(不过 5000 美元)、BCL SDK(?)、PDFLib(795 欧元)、QuickPDF(250 美元)
现在我们使用开源 pdf2xml(提取文本、图像和链接)和 GhostScript(快照和缩略图)。剩下的其他东西是:
- 字体;
- 多媒体;
- 热点;
- 页面信息。
我们在花很多钱(可能会选择错误的解决方案时出错)或使用免费/开源解决方案之间犹豫不决。
您会推荐哪种从 PDF 中提取几乎所有内容的最佳解决方案?
任何意见将不胜感激。