pdf - 如何在 PDFBOX 中正确提取格式化文本，如 adobe acrobat x pro 中的“带格式复制”

Question

我需要在pdf文件中正确提取文本（第1页第一行 https://github.com/zhongguogu/PDFBOX/blob/master/pdf/formatted_text.pdf使用 PDFBOX

实际上结果是
，但我可以通过 Adobe Acrobat X Pro 中的“复制格式”正确复制文本。江苏利士德化工有限公司。

有什么方法可以正确提取格式化文本。

score 0 · Accepted Answer

您可以认为 PDFBox 的内置文本提取功能类似于从 Adobe Acrobat Reader 进行的常规复制和粘贴；在细节上存在一些差异，例如 Adobe Reader 更喜欢ActualText标记而不是标记内容的常规文本提取，但大多数情况下它们是相同的，并且按照 PDF 规范 ISO 32000-1 / ISO 32000-2 中的描述实现文本提取。

Adobe Reader 从您的文档中复制和粘贴结果在我看来就像一个正方形的游行。这也大致是您对 PDFBox 的期望。

查看示例 PDF 的内部结构，找不到任何关于哪个 Unicode 代码点对应于任何给定字形的信息，至少没有以标准方式编码。

我假设 Adobe 的“带格式的复制”所做的，是基于普通 PDF 创建者对专有输出的先前深入分析所产生的启发式方法，或者基于字形定义与任何可访问字体中存在的字形的比较。如果一切都失败了，甚至可能是两者的结合，由 OCR 支持。

您可以使用 PDFBox 作为框架框来实现类似的东西来检索原始数据，但不要指望这个任务很容易。

pdf - 如何在 PDFBOX 中正确提取格式化文本，如 adobe acrobat x pro 中的“带格式复制”

1 回答 1

Related

Reference