java - 无法在 PDFBOX 中读取单引号和双引号字符及其周围的某些字符

Question

我正在使用 Apache PDFbox 来处理我的 PDF。我需要提取文本以及 PDF 中每个字符的字体信息以进一步处理它。我使用 processTextPosition(TextPosition text) 方法来获取文本及其字体信息。但是我无法读取单引号、双引号等字符以及它周围的一些字符。我检查了 PDF 的流内容。它对这些单引号和双引号以及它周围的字符有一些数字表示，因为它有实际字符在正常情况下......任何人都可以帮我解决这个问题。

score 0 · Accepted Answer

可能有一种更标准的方法来从 pdf 中提取字体，如对这篇文章的回答中所述：如何使用 pdfbox 提取文本内容的字体样式？

pdfbox wiki 中描述了基本的文本提取：http: //pdfbox.apache.org/cookbook/textextraction.html

java - 无法在 PDFBOX 中读取单引号和双引号字符及其周围的某些字符

1 回答 1

Related

Reference