pdf - 从 PDF 中提取所有内容

Question

寻找从 PDF 文件中提取内容的解决方案（使用控制台工具或库）。

它将在服务器上用于从上传的 PDF 文件生成在线电子书。

需要提取以下内容：

查看 Adobe PDF 库（不过 5000 美元）、BCL SDK（？）、PDFLib（795 欧元）、QuickPDF（250 美元）

现在我们使用开源 pdf2xml（提取文本、图像和链接）和 GhostScript（快照和缩略图）。剩下的其他东西是：

我们在花很多钱（可能会选择错误的解决方案时出错）或使用免费/开源解决方案之间犹豫不决。

您会推荐哪种从 PDF 中提取几乎所有内容的最佳解决方案？

任何意见将不胜感激。

score 5 · Accepted Answer

听起来只需几天或几周的努力，您就可以根据自己的需要调整开源工具。字体和所有内容当然可以提取，这是每个 PDF 阅读器无论如何都必须执行的操作才能显示它们。

您可能应该估算程序员成本（$/hr）并将其乘以添加所需开源功能所需的估计时间（60-80 小时？）。如果这高于或接近 5000 美元，您可能会考虑只购买商业软件。

否则，在（相当不错的）PDF 参考的帮助下，您应该会顺利进行。

还有一件事，您可能会发现Poppler可以提供帮助。它用于渲染 PDF，但这与您要执行的操作非常相关。

score 1 · Accepted Answer

A：字体：我不认为可以提取字体。

B：不确定多媒体

C：什么是热点？

D：看看 iTextSharp（开源），你也许可以提取更多的页面信息。

score 1 · Accepted Answer

还有包含 3 个 SDK 的PDF 套件，专门用于从 PDF 中提取内容、将 PDF 渲染为图像并转换为 html。虽然没有字体文件提取，但它支持 XML 输出和保留原始布局的文本提取。

免责声明：我为 ByteScout 工作

score 0 · Accepted Answer

是的，您可以提取文本、文本样式信息、图像、链接注释、书签，甚至可以获取除表格之外的段落 id 信息。检查此链接。

它真的很好用。

score 0 · Accepted Answer

tika http://tika.apache.org/它的优点是可以从多种类型中提取文本。但它也可以解决您的问题。

对于实现：Tika 的目标是尽可能重用现有的解析器库，如 PDFBox 或 Apache POI，因此 Tika 中的大多数解析器类都是这些外部库的适配器。

我认为 tika 可能会像你描述的那样工作。用类别提取事物。（稍后将添加更多代码。）

还没有一个确切的答案。

5 回答 5