-1

我知道已经有了PDFboxiText但他们没有提取视觉内容的能力,也不需要离线处理 pdf。另外,我想要一种在线提取文本和视觉内容的方法。不想下载pdf文件然后做事。Java 语言有什么样的 API 或库?

对那些觉得不清楚的人进行编辑,我再解释一下:

想象一下,当使用任何HTML parser你可以在线解析页面时,制作DOMSAX树并浏览它们的元素,然后根据这些树中节点的内容提取照片和文本。至少,对于照片,您可以获得相应的 HTML 标签,对于文本,同样可以获取实际文本。现在,我想知道对 PDF 是否有类似的处理?无需下载即可浏览文本和图像

4

2 回答 2

0

Gnostice PDFOne (for Java) has a getPageElements() method that can parse a PDF page for text and image elements. Text in a PDF is not in a DOM like a HTML or XML document. Text just appears in various x-y coordinates and magically looks well-formatted. However, PDFOne has some PDF text extraction methods that reconstruct those text elements to user-friendly sentences. DISCLOSURE: I work for the company that makes this library.

于 2015-01-28T09:29:22.017 回答
-2

PDFImageStream可以做到这一点。有一个免费版本,只有一个限制:它只能在单线程应用程序中使用。

于 2015-01-25T10:33:46.440 回答