我正在尝试从此文件中提取文本:
https://www.dropbox.com/s/249snnj1nsve5ir/Lebenslauf.pdf?dl=0
使用 CGPDFScanner。我可以从包含的 PDF 字典中检测到字符编码是 WinAnsiEncoding,但字符都出现乱码。作为交叉检查,我尝试从 Mac OS X 中的 Preview 应用程序复制粘贴文本,该应用程序有效 - 因此必须以某种方式将其提取为字符串。另一方面,商业 3rd 方框架http://www.fastpdfkit.com也无法正确提取文本。
任何人都知道我错过了什么?
作为旁注,我使用https://github.com/KurtCode/PDFKitten来扫描 PDF。