好的,我已经对该主题进行了一些研究,但正如标题所示,我不是专家。所以这就是问题所在:我正在使用 python 和 lib pdfminer 从 pdf 中提取一些文本。
我只尝试了带有拉丁字符的文档,并且在大多数情况下效果很好,除非字体不是拉丁/西方。现在困扰我的文档是使用日文字体中的拉丁字符。Adobe 告诉我编码是Adobe-Identity
. 我得到的只是char的cid,我找不到相关的cidmap。
我知道我没有使用正确的术语,我的意思是 pdf 告诉我cid=3
并且我知道 char 是一个空格。我已经为 range 中的字符手动编写了一个映射0x00-0xFF
。一些消息来源告诉它匹配“mac-roman”编码,其他不同意。其他消息来源说它与 OpenType 映射匹配,但我找不到任何超越0xFF
. 而且我的cids > 3000。
您可以看出我很困惑,因此请您更正我的术语,但我想要的是一张与我自己的地图相匹配但扩展了 range 的地图0x0100-0xFFFF
。
ETA:窃听 pdf 的链接http://www.sas.upenn.edu/~jtigay/JapanVol.pdf
ETA2:我找到了这个ftp://ftp.oreilly.com/pub/examples/nutshell/cjkv/adobe /aj14.tar.Z存档中的 cid2code.txt 是我正在寻找的那种地图。但是对于所有这些字体, cid 列似乎“移动”了两个: cid1 映射到空间。
ETA3:更正编码