0

我需要在pdf文件中正确提取文本(第1页第一行 https://github.com/zhongguogu/PDFBOX/blob/master/pdf/formatted_text.pdf使用 PDFBOX

实际上结果是
,但我可以通过 Adob​​e Acrobat X Pro 中的“复制格式”正确复制文本。江苏利士德化工有限公司。

有什么方法可以正确提取格式化文本。

4

1 回答 1

0

您可以认为 PDFBox 的内置文本提取功能类似于从 Adob​​e Acrobat Reader 进行的常规复制和粘贴;在细节上存在一些差异,例如 Adob​​e Reader 更喜欢ActualText标记而不是标记内容的常规文本提取,但大多数情况下它们是相同的,并且按照 PDF 规范 ISO 32000-1 / ISO 32000-2 中的描述实现文本提取。

Adobe Reader 从您的文档中复制和粘贴结果在我看来就像一个正方形的游行。这也大致是您对 PDFBox 的期望。

查看示例 PDF 的内部结构,找不到任何关于哪个 Unicode 代码点对应于任何给定字形的信息,至少没有以标准方式编码。

我假设 Adob​​e 的“带格式的复制”所做的,是基于普通 PDF 创建者对专有输出的先前深入分析所产生的启发式方法,或者基于字形定义与任何可访问字体中存在的字形的比较。如果一切都失败了,甚至可能是两者的结合,由 OCR 支持。

您可以使用 PDFBox 作为框架框来实现类似的东西来检索原始数据,但不要指望这个任务很容易。

于 2019-06-11T15:28:15.747 回答