我想用中文搜索pdf中的文本。我正在使用 CGPDFScanner。我无法使用 CIDFontType2 获得正确的文本。
我的字体对象有ToUnicode
条目
字体名称为HFKAAO+LinGothic-Bold
它具有CIDToGIDMap
名称标识的条目(pdf文件说这意味着嵌入了truetype字体程序)
CIDSystemInfo
注册表是 Adob e
订购是身份
它在带有 FlateDecode 的 FontDescriptor 过滤器中有 FontFile2 条目
我发现有人说我只是对从 Tj 获得的文本进行了膨胀,但这不起作用……我使用 zlib 对文本进行了膨胀,似乎它没有产生正确的数据。
有没有我可以学习的示例代码?
我刚刚找到https://github.com/KurtCode/PDFKitten但它不能与中文一起使用......