java - 如何从在线pdf中提取照片和文本

Question

我知道已经有了PDFbox，iText但他们没有提取视觉内容的能力，也不需要离线处理 pdf。另外，我想要一种在线提取文本和视觉内容的方法。不想下载pdf文件然后做事。Java 语言有什么样的 API 或库？

对那些觉得不清楚的人进行编辑，我再解释一下：

想象一下，当使用任何HTML parser你可以在线解析页面时，制作DOM或SAX树并浏览它们的元素，然后根据这些树中节点的内容提取照片和文本。至少，对于照片，您可以获得相应的 HTML 标签，对于文本，同样可以获取实际文本。现在，我想知道对 PDF 是否有类似的处理？无需下载即可浏览文本和图像

score 0 · Accepted Answer

Gnostice PDFOne (for Java) has a getPageElements() method that can parse a PDF page for text and image elements. Text in a PDF is not in a DOM like a HTML or XML document. Text just appears in various x-y coordinates and magically looks well-formatted. However, PDFOne has some PDF text extraction methods that reconstruct those text elements to user-friendly sentences. DISCLOSURE: I work for the company that makes this library.

score -2 · Accepted Answer

PDFImageStream可以做到这一点。有一个免费版本，只有一个限制：它只能在单线程应用程序中使用。

java - 如何从在线pdf中提取照片和文本

2 回答 2

Related

Reference