0

我想用中文搜索pdf中的文本。我正在使用 CGPDFScanner。我无法使用 CIDFontType2 获得正确的文本。

我的字体对象有ToUnicode条目

字体名称为HFKAAO+LinGothic-Bold

它具有CIDToGIDMap名称标识的条目(pdf文件说这意味着嵌入了truetype字体程序)

CIDSystemInfo
注册表是 Adob ​​e
订购是身份

它在带有 FlateDecode 的 FontDescriptor 过滤器中有 FontFile2 条目

我发现有人说我只是对从 Tj 获得的文本进行了膨胀,但这不起作用……我使用 zlib 对文本进行了膨胀,似乎它没有产生正确的数据。

有没有我可以学习的示例代码?

我刚刚找到https://github.com/KurtCode/PDFKitten但它不能与中文一起使用......

4

1 回答 1

0

我发现了问题

我只是使用 CMap 来翻译字符串形式 Tj

我的代码中有一个错误,我解码了 CMap

修复错误后,一切正常

谢谢~

于 2012-05-04T06:29:27.243 回答