3

我正在使用 Apache PDFbox 来处理我的 PDF。我需要提取文本以及 PDF 中每个字符的字体信息以进一步处理它。我使用 processTextPosition(TextPosition text) 方法来获取文本及其字体信息。但是我无法读取单引号、双引号等字符以及它周围的一些字符。我检查了 PDF 的流内容。它对这些单引号和双引号以及它周围的字符有一些数字表示,因为它有实际字符在正常情况下......任何人都可以帮我解决这个问题。

4

1 回答 1

0

可能有一种更标准的方法来从 pdf 中提取字体,如对这篇文章的回答中所述:如何使用 pdfbox 提取文本内容的字体样式?

pdfbox wiki 中描述了基本的文本提取:http: //pdfbox.apache.org/cookbook/textextraction.html

于 2013-09-07T04:59:16.787 回答