8

寻找从 PDF 文件中提取内容的解决方案(使用控制台工具或库)。

它将在服务器上用于从上传的 PDF 文件生成在线电子书。

需要提取以下内容:

  1. 带有字体和样式的文本;
  2. 图片;
  3. 音频和视频;
  4. 链接和热点。
  5. 页面快照和缩略图;
  6. 一般 PDF 信息,例如书籍布局、页数等。

查看 Adob​​e PDF 库(不过 5000 美元)、BCL SDK(?)、PDFLib(795 欧元)、QuickPDF(250 美元)

现在我们使用开源 pdf2xml(提取文本、图像和链接)和 GhostScript(快照和缩略图)。剩下的其他东西是:

  1. 字体;
  2. 多媒体;
  3. 热点;
  4. 页面信息。

我们在花很多钱(可能会选择错误的解决方案时出错)或使用免费/开源解决方案之间犹豫不决。

您会推荐哪种从 PDF 中提取几乎所有内容的最佳解决方案?

任何意见将不胜感激。

4

5 回答 5

5

听起来只需几天或几周的努力,您就可以根据自己的需要调整开源工具。字体和所有内容当然可以提取,这是每个 PDF 阅读器无论如何都必须执行的操作才能显示它们。

您可能应该估算程序员成本($/hr)并将其乘以添加所需开源功能所需的估计时间(60-80 小时?)。如果这高于或接近 5000 美元,您可能会考虑只购买商业软件。

否则,在(相当不错的)PDF 参考的帮助下,您应该会顺利进行。

还有一件事,您可能会发现Poppler可以提供帮助。它用于渲染 PDF,但这与您要执行的操作非常相关。

于 2009-11-13T15:40:24.060 回答
1

A:字体:我不认为可以提取字体。

B:不确定多媒体

C:什么是热点?

D:看看 iTextSharp(开源),你也许可以提取更多的页面信息。

于 2009-11-12T11:29:37.807 回答
1

还有包含 3 个 SDK 的PDF 套件,专门用于从 PDF 中提取内容、将 PDF 渲染为图像并转换为 html。虽然没有字体文件提取,但它支持 XML 输出和保留原始布局的文本提取。

有一个基于此引擎的“PDF Multitool”免费实用程序,因此您可以使用它来查看它如何处理您拥有的 PDF 文件。

免责声明:我为 ByteScout 工作

于 2015-06-01T11:15:18.233 回答
0

是的,您可以提取文本、文本样式信息、图像、链接注释、书签,甚至可以获取除表格之外的段落 id 信息。检查此链接。

http://www.pdftron.com/pdfnet/index.html

它真的很好用。

于 2011-08-02T12:35:25.247 回答
0

tika http://tika.apache.org/它的优点是可以从多种类型中提取文本。但它也可以解决您的问题。

对于实现:Tika 的目标是尽可能重用现有的解析器库,如 PDFBox 或 Apache POI,因此 Tika 中的大多数解析器类都是这些外部库的适配器。

我认为 tika 可能会像你描述的那样工作。用类别提取事物。(稍后将添加更多代码。)


还没有一个确切的答案。

于 2014-09-25T08:34:10.693 回答