我知道已经有了PDFbox
,iText
但他们没有提取视觉内容的能力,也不需要离线处理 pdf。另外,我想要一种在线提取文本和视觉内容的方法。不想下载pdf文件然后做事。Java 语言有什么样的 API 或库?
对那些觉得不清楚的人进行编辑,我再解释一下:
想象一下,当使用任何HTML parser
你可以在线解析页面时,制作DOM
或SAX
树并浏览它们的元素,然后根据这些树中节点的内容提取照片和文本。至少,对于照片,您可以获得相应的 HTML 标签,对于文本,同样可以获取实际文本。现在,我想知道对 PDF 是否有类似的处理?无需下载即可浏览文本和图像