java - 如何使用 iText 库获取 pdf 文件的给定段落内容？

Question

有没有办法使用 iText 库获取 pdf 文件中给定段落的段落数或内容？我在一些代码中看到了一些像 Paragraph、Chunk 这样的类来创建新的 pdf 文件，但我找不到任何方法可以在读取文件中获取这些类。每一个想法都值得赞赏

score 3 · Accepted Answer

您所说的 PDF 是带标签的 PDF 吗？如果不是，那么您对 PDF 做出了错误的假设。在 PDF 中，内容是在页面上绘制的。例如：将 iText PdfPTable 转换为将文本片段绘制到画布的文本状态运算符，以及绘制路径和形状的图形状态运算符。如果 PDF 没有标记，则这些行不知道它们是表格的边框；一个词不知道它属于哪个单元格。

段落也是如此：一段文本不知道它是否属于一个句子、一个段落、一个标题行，......

由于 PDF 的本质，您正在寻找的内容可能是不可能的（使用 iText 或任何其他软件产品），或者可能需要启发式（人工智能）来检查所有文本状态运算符和内容的语义以获得模仿人类如何解释文本的结果。

如果您的 PDF 标记正确，则很容易实现。请参阅ParseTaggedPdf示例。

java - 如何使用 iText 库获取 pdf 文件的给定段落内容？

1 回答 1

Related

Reference